Le coût d’inférence de la perturbation de la recherche – Analyse du coût des grands modèles de langage

Le ChatGPT d’OpenAI a pris le monde par surprise, rassemblant rapidement plus de 100 millions d’utilisateurs actifs rien qu’en janvier. Il s’agit de l’application ayant connu la croissance la plus rapide pour atteindre cette taille, les deux précédents détenteurs du record étant TikTok en 9 mois et Instagram en 2,5 ans. La question la plus importante dans tous les esprits est de savoir à quel point les grands modèles de langage (LLM) vont perturber la recherche. Microsoft a secoué le monde cette semaine avec l’annonce Bing, intégrant la technologie OpenAI dans la recherche.

Ce nouveau Bing va obliger Google à réagir, et je veux que les gens sachent que nous les avons fait danser.

Satya Nadella, PDG de Microsoft

Les récentes actions de Google donnent l’impression qu’ils dansent. Bien que nous pensions que Google dispose de meilleurs modèles et d’une plus grande expertise en IA que toute autre entreprise au monde, ils n’ont pas une culture propice à la mise en œuvre et à la commercialisation d’une grande partie de sa technologie de pointe. Les pressions concurrentielles de Microsoft et d’OpenAI changent rapidement cela.

La perturbation et l’innovation dans la recherche ne sont pas gratuites. Les coûts pour former un LLM, comme nous l’avons détaillé ici, sont élevés. Plus important encore, les coûts d’inférence dépassent de loin les coûts de formation lors du déploiement d’un modèle à une échelle raisonnable. En fait, les coûts d’inférence de ChatGPT dépassent les coûts de formation sur une base hebdomadaire. Si des LLM de type ChatGPT sont déployés dans la recherche, cela représente un transfert direct de 30 milliards de dollars de bénéfices de Google dans les mains des pics et des pelles de l’industrie informatique.

Aujourd’hui, nous allons plonger dans les différentes utilisations des LLM pour la recherche, les coûts quotidiens de ChatGPT, le coût de l’inférence pour les LLM, les effets de perturbation de la recherche de Google avec des chiffres, les exigences matérielles pour les charges de travail d’inférence LLM, y compris les chiffres d’amélioration des performances pour le H100 de Nvidia et les comparaisons de coûts TPU, la longueur de séquence, les critères de latence, les différents leviers qui peuvent être ajustés, les approches différentes de ce problème par Microsoft, Google et Neeva, et comment l’architecture modèle suivante d’OpenAI, que nous avons détaillée ici, réduit considérablement les coûts sur plusieurs fronts.

Le business de la recherche

Tout d’abord, définissons les paramètres du marché de la recherche. Nos sources indiquent que Google exécute ~320 000 requêtes de recherche par seconde. Comparé au segment commercial de la recherche de Google, qui a généré un chiffre d’affaires de 162,45 milliards de dollars en 2022, vous obtenez un revenu moyen par requête de 1,61 cent. À partir de là, Google doit payer pour une énorme quantité de frais généraux en calcul et mise en réseau pour les recherches, la publicité, le crawling du web, le développement de modèles, les employés, etc. Un poste notable dans la structure de coûts de Google est qu’ils ont payé dans le voisinage d’environ 20 milliards de dollars pour être le moteur de recherche par défaut sur les produits Apple.

L’unité commerciale Services de Google a une marge opérationnelle de 34,15 %. Si nous allouons les coûts d’exploitation par requête, nous arrivons au coût de 1,06 cent par requête de recherche, générant 1,61 cent de revenu. Cela signifie qu’une requête de recherche avec un LLM doit être significativement inférieure à 0,5 cent par requête, sinon l’activité de recherche deviendrait extrêmement non rentable pour Google.

Nous sommes ravis d’annoncer que le nouveau Bing fonctionne sur un nouveau modèle de langage OpenAI de nouvelle génération, plus puissant que ChatGPT et personnalisé spécifiquement pour la recherche. Il tire les apprentissages et avancées clés de ChatGPT et GPT-3.5 – et il est même plus rapide, plus précis et plus capable.

Microsoft

Coûts de ChatGPT

L’estimation des coûts de ChatGPT est un exercice délicat en raison de plusieurs variables inconnues. Nous avons construit un modèle de coût indiquant que ChatGPT coûte 694 444 $ par jour en coûts de matériel informatique. OpenAI nécessite environ 3 617 serveurs HGX A100 (28 936 GPU) pour desservir Chat GPT. Nous estimons le coût par requête à 0,36 cent.

Notre modèle est construit à partir de zéro sur une base par inférence, mais il s’aligne sur le tweet de Sam Altman et une interview qu’il a donnée récemment. Nous supposons qu’OpenAI a utilisé une architecture de modèle GPT-3 dense avec une taille de 175 milliards de paramètres, une dimension cachée de 16k, une longueur de séquence de 4k, un nombre moyen de jetons par réponse de 2k, 15 réponses par utilisateur, 13 millions d’utilisateurs actifs quotidiens, des taux d’utilisation FLOPS 2x supérieurs à FasterTransformer à une latence <2000ms, une quantification int8, des taux d’utilisation matérielle de 50% dus à un temps d’inactivité purement inactif, et un coût de 1$ par heure de GPU.

Veuillez remettre en question nos hypothèses ; nous serions ravis de le rendre plus précis, bien que nous pensons être dans le bon ordre de grandeur.

Coûts de recherche avec ChatGPT

Si le modèle ChatGPT était maladroitement inséré dans les activités de recherche existantes de Google, l’impact serait dévastateur. Il y aurait une réduction de 36 milliards de dollars du bénéfice d’exploitation. Il s’agit de 36 milliards de dollars de coûts d’inférence LLM. Notez que ce n’est pas à quoi ressemblerait la recherche avec les LLM, cette analyse est ici.

Le déploiement du ChatGPT actuel dans chaque recherche effectuée par Google nécessiterait 512 820,51 serveurs A100 HGX avec un total de 4 102 568 GPU A100. Le coût total de ces serveurs et de la mise en réseau dépasse 100 milliards de dollars de Capex seul, dont Nvidia recevrait une grande partie. Cela ne se produira jamais, bien sûr, mais expérience de pensée amusante si nous supposons qu’aucune amélioration logicielle ou matérielle n’est apportée. Nous avons également modélisé les coûts d’inférence en utilisant le TPUv4 et v5 de Google dans la section des abonnés, qui sont assez différents. Nous avons également des chiffres d’amélioration des performances d’inférence H100 LLM ainsi.

Ce qui est étonnant, c’est que Microsoft sait que l’insertion de LLM dans la recherche va écraser la rentabilité de la recherche et nécessiter d’énormes dépenses en capital. Alors que nous avons estimé le décalage de la marge opérationnelle, écoutez ce que dit Satya Nadella à propos de la marge brute.

De maintenant, la [marge brute] de la recherche va baisser pour toujours.

Satya Nadella, PDG de Microsoft

Cela ne tient pas compte du fait que les volumes de recherche diminuent probablement quelque peu à mesure que la qualité de la recherche s’améliore, les difficultés à insérer des publicités dans la réponse d’un LLM, ou une myriade d’autres problèmes techniques dont nous discuterons plus loin dans ce rapport.

Microsoft est heureux de faire sauter la rentabilité du marché de la recherche.

Pour chaque gain d’un point de part de marché sur le marché de la publicité dans les moteurs de recherche, cela représente une opportunité de revenus de 2 milliards de dollars pour notre activité publicitaire.

Microsoft

Bing a une part de marché maigre. Tout gain de parts de marché que Microsoft arrache lui donnera d’énormes résultats financiers en termes de chiffre d’affaires et de résultat net.

Je pense qu’il y a tellement de potentiel pour nous deux ici. Nous allons découvrir ce que ces nouveaux modèles peuvent faire, mais si j’étais assis sur un monopole de recherche léthargique et que je devais penser à un monde où il y aurait un vrai défi à la façon dont cette monétisation fonctionne et de nouvelles unités publicitaires, et peut-être même une pression à la baisse temporaire, je ne me sentirais pas très bien à ce sujet.

Il y a tellement de valeur ici, il m’est inconcevable que nous ne puissions pas trouver comment faire sonner la caisse.

Sam Altman, PDG d’OpenAI sur Stratechery

Pendant ce temps, Google est sur la défensive. Si leur franchise de recherche faiblit, ils ont un énorme problème avec leur résultat net. Les pertes de parts de marché sembleront encore pires que l’analyse ci-dessus, car Google est assez gonflé dans les coûts d’exploitation.

La réponse de Google

Google ne prend pas cela allongé. En l’espace de seulement quelques mois après la sortie de ChatGPT, Google met déjà leur version de la recherche avec un LLM à la disposition du public. Il y a des avantages et des inconvénients de ce que nous avons vu sur le nouveau Bing par rapport au nouveau Google.

Bing GPT semble considérablement plus puissant en termes de capacités LLM. Google a déjà eu des problèmes de précision, même lors de ses démonstrations sur scène de cette nouvelle technologie. Si vous mesurez à la fois le temps de réponse de Bing GPT et de Google Bard, Bard écrase Bing en termes de rapidité de réponse. Ces différences de temps de réponse du modèle et de qualité sont directement liées à la taille du modèle.

Bard combine l’étendue des connaissances du monde avec la puissance, l’intelligence et la créativité d’un grand modèle linguistique. Il s’appuie sur les informations du web pour fournir des réponses fraîches et de haute qualité. Nous le lançons initialement avec notre version allégée du modèle LaMDA. Ce modèle beaucoup plus petit nécessite beaucoup moins de puissance de calcul, nous permettant de monter en échelle vers plus d’utilisateurs, permettant plus de feedback.

Google

Google joue la défense sur les marges avec ce modèle plus petit. Ils auraient pu déployer leur modèle LaMDA full-size ou le modèle PaLM encore plus capable et plus volumineux, mais ils ont plutôt opté pour quelque chose de beaucoup plus mince.

C’est par nécessité.

Google ne peut pas déployer ces énormes modèles dans la recherche. Cela éroderait trop leurs marges brutes. Nous parlerons plus en détail de cette version allégée de LaMDA plus loin dans ce rapport, mais il est important de reconnaître que l’avantage de latence de Bard est un facteur de compétitivité.

Comme les revenus de recherche de Google proviennent des annonces, différents utilisateurs génèrent différents niveaux de revenus par recherche. La femme américaine moyenne des banlieues génère beaucoup plus de revenus par annonce ciblée qu’un agriculteur masculin en Inde. Cela signifie également qu’ils génèrent des marges d’exploitation très différentes.

Imaginez une dystopie où la mère au foyer des banlieues aisées a accès au meilleur moteur de recherche, et tout le monde d’autre a accès à des moteurs de recherche moins coûteux… Étant donné le coût d’inférence des LLM, Google et Microsoft Bing ont un assez bon argument pour ne les déployer qu’aux utilisateurs ayant le CPM le plus élevé…

Dylan Patel @dylan522p

L’avenir des grands modèles de langage dans la recherche

Mettre brutalement un LLM directement dans la recherche n’est pas la seule façon d’améliorer la recherche. Google utilise des modèles de langage dans la recherche pour générer des plongements depuis des années. Cela devrait améliorer les résultats pour les recherches les plus courantes sans faire exploser les budgets de coûts d’inférence parce qu’ils peuvent être générés une fois et servis à de nombreux. Nous épluchons cet oignon ici et certaines des nombreuses optimisations de coûts qui peuvent être faites.

L’un des plus grands défis à l’insertion de LLM dans la recherche est la croissance de la longueur de séquence et les critères de faible latence. Nous en discuterons ci-dessous et comment ceux-ci façonneront l’avenir de la recherche.

Nous discuterons également du A100, H100 et TPU de Google dans le contexte de l’inférence LLM et des coûts par requête. Nous partagerons également les chiffres d’amélioration des performances d’inférence H100 et l’impact qu’il aura sur le marché du matériel. La compétitivité du GPU par rapport au TPU est inhérente à cette bataille.

En outre, le coût par inférence peut être considérablement réduit sans nouveau matériel. Nous avons discuté ici de l’amélioration de l’architecture LLM suivante d’OpenAI sur le plan de la formation, mais il existe également des améliorations des coûts d’inférence. De plus, Google utilise également des techniques uniques et passionnantes que nous discuterons également ci-dessous.

Check Also

La Fed Frappante : La Baisse des Taux d’Intérêt et Ses Répercussions sur la Présidentielle Américaine

Introduction La Réserve fédérale américaine, communément appelée la Fed, a récemment fait les gros titres …

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *