Pourquoi Nvidia restera encore longtemps le leader incontesté des data centers d'intelligence artificielle

Nvidia a un message très clair pour sa conférence GTC 2025 qui a lieu cette semaine à San Jose en Californie : la révolution de l’intelligence artificielle générative ne fait que commencer. Lors de sa keynote d’ouverture le 18 mars, son dirigeant Jensen Huang a déclaré que les investissements mondiaux dans les data centers pour l’IA atteindront les 1000 milliards de dollars d’ici 2028.

Ces usines d’IA, comme il se plaît à les appeler, n’ont plus grand chose à voir avec les data centers d’antan. "Ils sont devenus des générateurs de tokens au lieu d’être des récupérateurs de fichiers." Surtout, ils sont pratiquement tous basés sur les produits de Nvidia. Le pari réalisé par Jensen Huang il y a presque une décennie sur l’IA dans les data centers a été une réussite écrasante.

Et s’il est de coutume désormais de dire que l’avantage concurrentiel de Nvidia n’est pas tant du côté matériel avec les GPU que du logiciel grâce à l’écosystème CUDA, c’est encore sous-estimer l’avance qu’a pris l’entreprise dans le reste du data center, à commencer par le réseau. Jensen Huang a déroulé sa stratégie dans ces trois domaines pendant deux heures, et il apparaît évident que Nvidia continuera de dominer le marché pendant la décennie à venir.

Blackwell Ultra prend la relève

L’adoption de Blackwell a été forte. Les 4 principaux fournisseurs de cloud américains (AWS, Microsoft Azure, Google Cloud, Oracle Cloud) ont acheté 3,6 millions de GPU Blackwell depuis leur lancement jusqu'au premier trimestre 2025, contre 1,3 million de ventes de GPU Hopper en 2024. Bon, la comparaison est un peu biaisée car Blackwell a deux GPU par puces, mais cela reste impressionnant. Surtout, Blackwell a rapporté 11 milliards de dollars à Nvidia au cours du dernier trimestre.

Pour ne pas s’arrêter en si bon chemin, Nvidia annonce le système Blackwell Ultra NVL72, composé de superpuces GB300. Il disposera d’une puissance de calcul de 1,1 ExaFLOPS pour de l’inférence en FP4 dense et de 0,36 ExaFLOPS pour de l’entraînement en FP8, soit 1,5 fois plus que ce que permet le GB200 NVL72. Il a 20 To de mémoire système HBM et 40 To de mémoire graphique, deux fois plus de bande passante réseau, et de nouvelles instructions qui doublent ses performances.

Chaque GB300 dispose de 15 PFLOPS de puissance en FP4 dense et de 288 Go de HBM3e. Blackwell Ultra sera disponible au second semestre 2025. Un DGX SuperPOD Blackwell Ultra sera également commercialisé, composé de huit racks.

La superpuce Vera Rubin dès 2026

Si Blackwell Ultra est une progression "incrémentale", Nvidia voit grand avec sa prochaine architecture, baptisée Vera Rubin en l’honneur de l’astronome dont les travaux sur les mouvements des galaxies ont conduit à la théorisation de la matière noire dans l’univers. Le GPU Rubin offrira 50 PétaFLOPS en FP4 avec 288 Go de HBM4. Le nouveau CPU Vera, quant à lui, sera doté de 88 coeurs Arm customisés gérant 176 threads et permettra un débit de 1,8 To/s via NVLink-C2C.

Le système Vera Rubin NVL144 qui sera basé sur cette superpuce sera disponible au second semestre 2026. Au menu : 3,6 ExaFLOPS pour de l’inférence en FP4, 1,2 ExaFLOPS pour de l’entraînement en FP8, 13 To/s de throughput pour la HBM4, 75 To de mémoire graphique, et du NVLink6 et ConnectX-9 dont les performances sont doublées par rapport à Blackwell.

Petite précision de Jensen Huang au passage : cela a été une erreur de dire que Blackwell n’avait qu’un seul GPU, car c’était en fait deux GPU collés ensemble. Désormais chaque die sera considéré comme un GPU. Rubin est donc composé de deux "GPU dies", comme Blackwell.

Puis Rubin Ultra... et plus encore

Au second semestre 2027, c’est Rubin Ultra qui verra le jour, avec quatre GPU, 100 PetaFLOPS de performance FP4 et 1 To de HBM4e. On le retrouvera dans le Rubin Ultra NVL576, qui développera 15 ExaFLOPS pour l’inférence en FP4, 5 ExaFLOPS pour l’entraînement en FP8, et des performances mémoire et réseau 8 fois supérieures à celles de Blackwell Ultra.

Jensen Huang s’est permis un petit teasing pour finir : la prochaine architecture GPU après Rubin sera... Feynman, en l’honneur du célèbre physicien américain (voir l'illustration en tête d'article). Elle sera lancée en 2028, couplée à un CPU Vera, et de la mémoire et des connectiques réseau "next gen". De quoi conforter ses clients sur la solidité de la feuille de route de Nvidia... Et peut-être aussi sur le fait qu’il est inutile d’attendre pour s’y mettre, car il y a toujours mieux qui arrive.

Blackwell Ultra, 40 fois meilleur que Hopper pour le raisonnement

Dans l’immédiat, Jensen Huang a vanté les performances de Blackwell Ultra pour les modèles dit de "raisonnement" (qui génèrent plus de tokens lorsqu’ils sont confrontés à des questions complexes, et donc "réfléchissent" pour être plus pertinents), évoquant des performances 40 fois supérieures à celles de Hopper sur des modèles comme DeepSeek R1.

"Comme je l’ai dit par le passé, quand Blackwell sera disponible à grande échelle, vous pourrez donner des cartes Hopper et personne n’en voudra", avant de commenter avec humour "je suis le ‘Chief Revenue Destroyer’ de l’entreprise, mes commerciaux se lamentent", et de finir par le presque nostalgique "the more you buy, the more you save", qui évolue pour devenir "the more you buy, the more you make". Comprendre que plus vous achetez de GPUs, plus vous allez gagner d’argent car vous pourrez fournir plus de tokens à vos clients.

Nvidia Dynamo, pour orchestrer l’inférence

L’un des éléments clés qui permet à Nvidia de justifier l’augmentation de performance de Blackwell par rapport à Hopper se nomme Nvidia Dynamo. Il s’agit d’une bibliothèque logicielle pour faire de l’inférence intelligemment et de façon distribuée. Jensen Huang la compare à VMware en matière d’impact potentiel, mais sur les GPU plutôt que les CPU. Il le décrit aussi comme "le système d’exploitation des usines d’IA". Quant au nom, il a été choisi "car c’est la dynamo qui a démarré la dernière révolution industrielle". Tout est dit.

Dynamo améliore significativement les performances d’inférence de Blackwell NVL72, avec comme exemple la génération de 10 millions de tokens par seconde par mégawatt au global contre 9 millions sans, et la disponibilité de 200 tokens par seconde de plus par utilisateur. Et ce, non seulement avec le même nombre de puces, mais aussi avec la même consommation énergétique, ce qui est déterminant selon Jensen Huang car "désormais tous les data centers devront faire avec la contrainte énergétique". Cerise sur le gâteau, Dynamo est open source et disponible sur GitHub.

Le coût de l’inférence est le nerf de la guerre

La théorie exposée par Jensen Huang tout le long de la keynote était que l’unité de mesure de l’IA est le token, et que la valeur générée par les "usines d’IA" dépend donc du nombre de tokens par seconde qu’elles peuvent fournir à leurs clients (notamment pour les fournisseurs de cloud). La capacité d'innovation de Nvidia tire donc toute cette économie vers l'avant.

Le succès éclair de DeepSeek R1, qui avait au départ fait dévisser Nvidia en bourse, représente donc au contraire une belle aubaine pour l'entreprise, selon son patron. "Ce type de modèle de raisonnement nécessite au moins 100 fois plus de tokens !" (et donc de puissance de calcul). Et il faut non seulement générer plus de tokens mais aussi réduire la latence perçue par les utilisateurs au maximum.

C’est un équilibre à trouver car si le système est saturé car il génère un maximum de tokens en permanence, une nouvelle demande prendra trop de temps, le principe de ces modèles reposant toujours sur la prédiction du prochain token l’un après l’autre. Différentes fonctions taxent aussi différentes ressources, explique le dirigeant.

Le pre-fill (absorption de l’information) demande beaucoup de FLOPS, tandis que l’étape d’après, le décodage, requiert énormément de bande passante mémoire car le modèle entier doit être mis en mémoire à chaque fois qu’un token est généré. D'où l’intérêt de mettre en réseau des milliers de GPU avec NVLink, car cela aide à paralléliser et découper les tâches pour plus d'efficacité.

"Idéalement je veux utiliser plus de GPU pour le pre-fill et moins pour le décodage", explique Jensen Huang, "et c’est pour ça que nous lançons Dynamo". Nvidia a également, pour parachever tout ça, annoncé ses propres modèles de raisonnement qui rejoignent la famille Llama Nemotron et sont disponibles sous forme de microservices NIM.

Vers une meilleure photonique pour connecter toujours plus de GPU

Le dernier aspect clé est la mise en réseau de toujours plus de GPU pour créer d’immenses infrastructures de calcul et contourner les limitations de taille des puces et de densité des racks. Là aussi, Nvidia a frappé très fort ce 18 mars avec l’annonce de solutions photoniques sur silicium qui seront 3,5 fois plus efficace énergétiquement que les produits actuels sur étagère. Nvidia continue ce faisant de rentabiliser son acquisition de Mellanox, réalisée en 2019.

Gilad Shainer, VP Networking de Nvidia, n’a pas mâché ses mots lors d’un briefing réservé à la presse : "Le réseau n’est plus un réseau, lorsqu’on regarde un data center d’IA, c’est en fait une infrastructure de calcul à grande échelle. Il y a des switchs, des adaptateurs réseau, des câbles et tout ça, mais ce ne sont pas des éléments séparés, c’est une infrastructure intégrée qui n’a plus grand chose à voir avec ce qui se faisait auparavant."

Ce qui change entre ces nouvelles solutions photoniques Quantum-X (Infiniband) et Spectrum-X (Ethernet) et l’existant, c’est qu’elles nécessitent beaucoup moins d’émetteurs-récepteurs laser. Ces derniers sont utilisés pour convertir les signaux électriques en lumière et vice versa, ce qui consomme beaucoup d’énergie.

Grâce à ses partenaires – notamment TSMC – Nvidia a intégré des lasers plus performants directement sur l'ASIC (puce conçue pour un usage spécifique) du switch, passant de huit lasers à deux. De plus, le système consomme moins, passant de 30 watts par émetteur-récepteur à seulement 9 W. Et ils garantissent aussi une meilleure intégrité du signal, passant de 22 dB de perte à 4 dB en enlevant connecteurs et PCB.

Cela a trois avantages. D’abord, la réduction de la consommation énergétique, qui représente 10% de la consommation totale du data center, permet de rajouter d’autant plus de GPU. Dans un exemple sur scène, Jensen Huang souligne qu’une économie de 6 MW équivaudra à 10 racks Rubin Ultra. Ensuite, c'est une meilleure résilience (10x) car il y a moins de composants et donc moins de risques de panne. Et enfin, un gain de temps (1,3x) dans la constructeur du data center car le système est moins complexe.

De quoi connecter à l’avenir des centaines de milliers de GPU Rubin à l’échelle d’un campus d'un gigawatt, car cette solution est aussi plus performante en matière de distance. Quantum-X Photonics sera disponible fin 2025 et Spectrum-X fin 2026.

Nvidia gère même la conception de data centers

En bonus pour finir : Nvidia a aussi annoncé une solution de jumeau numérique pour les data centers d’IA avec sa plateforme Omniverse. Ce "Blueprint" peut être utilisé à la fois pour la conception et la simulation du data center tout entier et se connecte aux solutions de Cadence, Etap, Schneider Electric et Vertiv pour gérer aussi bien le refroidissement que l’électricité et le reste. Au final, rien n’est laissé au hasard, et Nvidia contrôle toute la chaîne. Le roi de l’IA n’est pas près d’être détrôné.