Comment Nvidia a créé la puce alimentant le boom de l’IA générative


En 2022, le fabricant de puces américain Nvidia a lancé le H100, l’un des processeurs les plus puissants qu’il ait jamais construits – et l’un des plus chers, coûtant environ 40 000 $ chacun. Le lancement semblait mal choisi, tout comme les entreprises cherchaient à réduire leurs dépenses dans un contexte d’inflation galopante.

Puis en novembre, ChatGPT a été lancé.

“Nous sommes passés d’une année assez difficile l’année dernière à un revirement du jour au lendemain”, a déclaré Jensen Huang, directeur général de Nvidia. Le chatbot à succès d’OpenAI a été un “moment aha”, a-t-il déclaré. “Cela a créé une demande instantanée.”

La popularité soudaine de ChatGPT a déclenché une course aux armements parmi les plus grandes entreprises technologiques et les start-ups du monde qui se précipitent pour obtenir le H100, que Huang décrit comme « le premier ordinateur au monde [chip] conçu pour l’IA générative “- des systèmes d’intelligence artificielle capables de créer rapidement du texte, des images et du contenu de type humain.

La valeur d’avoir le bon produit au bon moment est devenue évidente cette semaine. Nvidia a annoncé mercredi que ses ventes pour les trois mois se terminant en juillet seraient de 11 milliards de dollars, soit plus de 50% de plus que les estimations précédentes de Wall Street, tirées par une reprise des dépenses des centres de données par Big Tech et la demande pour ses puces AI.

La réponse des investisseurs aux prévisions a ajouté 184 milliards de dollars à la capitalisation boursière de Nvidia en une seule journée jeudi, amenant ce qui était déjà la société de puces la plus précieuse au monde à près d’une valorisation de 1 milliard de dollars.

Nvidia est l’un des premiers gagnants de l’essor astronomique de l’IA générative, une technologie qui menace de remodeler les industries, de produire d’énormes gains de productivité et de déplacer des millions d’emplois.

Ce saut technologique devrait être accéléré par le H100, qui est basé sur une nouvelle architecture de puce Nvidia baptisée “Hopper” – du nom de la pionnière américaine de la programmation Grace Hopper – et est soudainement devenu le produit le plus en vogue de la Silicon Valley.

“Tout cela a décollé juste au moment où nous entrons en production sur Hopper”, a déclaré Huang, ajoutant que la fabrication à grande échelle avait commencé quelques semaines seulement avant le lancement de ChatGPT.

La confiance de Huang dans les gains continus découle en partie de sa capacité à travailler avec le fabricant de puces TSMC pour augmenter la production de H100 afin de satisfaire la demande explosive des fournisseurs de cloud tels que Microsoft, Amazon et Google, des groupes Internet tels que Meta et des entreprises clientes.

“Il s’agit de l’une des ressources d’ingénierie les plus rares de la planète”, a déclaré Brannin McBee, directeur de la stratégie et fondateur de CoreWeave, une start-up d’infrastructure cloud axée sur l’IA qui a été l’une des premières à recevoir des livraisons H100 plus tôt cette année.

Certains clients ont attendu jusqu’à six mois pour mettre la main sur les milliers de puces H100 dont ils ont besoin pour former leurs vastes modèles de données. Les start-ups d’IA avaient exprimé leur inquiétude quant à la pénurie de H100 au moment même où la demande décollait.

Vous voyez un instantané d’un graphique interactif. Cela est probablement dû au fait que vous êtes hors ligne ou que JavaScript est désactivé dans votre navigateur.


Elon Musk, qui a acheté des milliers de puces Nvidia pour sa nouvelle start-up d’intelligence artificielle X.ai, a déclaré lors d’un événement du Wall Street Journal cette semaine qu’à l’heure actuelle, les GPU (unités de traitement graphique) “sont considérablement plus difficiles à obtenir que les médicaments”, plaisantant qui n’était “pas vraiment un bar haut à San Francisco”.

“Le coût du calcul est devenu astronomique”, a ajouté Musk. “La mise minimale doit être de 250 millions de dollars de matériel serveur [to build generative AI systems].”

Le H100 s’avère particulièrement populaire auprès des entreprises Big Tech telles que Microsoft et Amazon, qui construisent des centres de données entiers centrés sur les charges de travail d’IA, et des start-ups d’IA générative telles que OpenAI, Anthropic, Stability AI et Inflection AI, car il promet des performances supérieures. qui peuvent accélérer les lancements de produits ou réduire les coûts de formation au fil du temps.

“En termes d’accès, oui, c’est ce à quoi ressemble la montée en puissance d’une nouvelle architecture GPU”, a déclaré Ian Buck, responsable de l’activité informatique hyperscale et haute performance de Nvidia, qui a la lourde tâche d’augmenter l’offre de H100 pour répondre à la demande. “Cela se produit à très grande échelle”, a-t-il ajouté, certains gros clients recherchant des dizaines de milliers de GPU.

La puce inhabituellement grande, un “accélérateur” conçu pour fonctionner dans les centres de données, possède 80 milliards de transistors, cinq fois plus que les processeurs qui alimentent les derniers iPhones. Bien qu’il soit deux fois plus cher que son prédécesseur, l’A100 sorti en 2020, les premiers utilisateurs affirment que le H100 offre des performances au moins trois fois supérieures.

“Le H100 résout la question d’évolutivité qui sévit [AI] créateurs de modèles », a déclaré Emad Mostaque, cofondateur et directeur général de Stability AI, l’une des sociétés à l’origine du service de génération d’images Stable Diffusion. “C’est important car cela nous permet à tous de former des modèles plus grands plus rapidement, car cela passe d’une recherche à un problème d’ingénierie.”

Alors que le moment du lancement du H100 était idéal, la percée de Nvidia dans l’IA remonte à près de deux décennies à une innovation dans le logiciel plutôt que dans le silicium.

Son logiciel Cuda, créé en 2006, permet aux GPU d’être réutilisés comme accélérateurs pour d’autres types de charges de travail au-delà des graphiques. Puis vers 2012, Buck a expliqué : “L’IA nous a trouvés.”

Des chercheurs au Canada ont réalisé que les GPU étaient parfaitement adaptés à la création de réseaux de neurones, une forme d’IA inspirée de la façon dont les neurones interagissent dans le cerveau humain, qui devenait alors un nouvel axe de développement de l’IA. « Il a fallu près de 20 ans pour en arriver là où nous en sommes aujourd’hui », a déclaré Buck.

Nvidia compte désormais plus d’ingénieurs logiciels que d’ingénieurs matériels pour lui permettre de prendre en charge les nombreux types de frameworks d’IA qui ont émergé au cours des années suivantes et de rendre ses puces plus efficaces pour le calcul statistique nécessaire à l’entraînement des modèles d’IA.

Hopper a été la première architecture optimisée pour les “transformateurs”, l’approche de l’IA qui sous-tend le chatbot “transformateur génératif pré-formé” d’OpenAI. Le travail étroit de Nvidia avec les chercheurs en IA lui a permis de repérer l’émergence du transformateur en 2017 et de commencer à régler son logiciel en conséquence.

“Nvidia a sans doute vu l’avenir avant tout le monde avec son pivot pour rendre les GPU programmables”, a déclaré Nathan Benaich, associé général d’Air Street Capital, un investisseur dans les start-ups d’IA. “Il a repéré une opportunité et parié gros et a constamment dépassé ses concurrents.”

Benaich estime que Nvidia a deux ans d’avance sur ses rivaux mais ajoute : “Sa position est loin d’être inattaquable tant sur le plan matériel que logiciel.”

Mostaque de Stability AI est d’accord. “Les puces de nouvelle génération de Google, Intel et d’autres rattrapent leur retard [and] même Cuda devient moins difficile à mesure que le logiciel est standardisé. »

Pour certains dans l’industrie de l’IA, l’enthousiasme de Wall Street cette semaine semble trop optimiste. Néanmoins, “pour le moment”, a déclaré Jay Goldberg, fondateur du cabinet de conseil en puces D2D Advisory, “le marché de l’IA pour les demi-finales semble devoir rester gagnant et prend tout le marché pour Nvidia”.

Reportage supplémentaire de Madhumita Murgia



ttn-fr-56