Nvidia dévoile son architecture Blackwell pour l'IA générative et son nouveau GPU B200

Nvidia ne se repose pas sur ses lauriers. Le "vendeur de pelles" de la ruée vers l'intelligence artificielle générative le prouve une énième fois avec sa nouvelle architecture GPU optimisée pour l'IA, Blackwell, et les produits associés, le GPU Tensor Core B200 (2,5 fois plus performant qu'un H100) et la "super puce" GB200. Parmi ses innovations, la possibilité de faire de l'inférence en précision FP4 pour "doubler les performances". N'en déplaise à la concurrence, le roi des puces pour l'IA n'est toujours pas prêt d'être détrôné.

Julien Bergounhoux

Publié le 18 mars 2024 à 22h00, mis à jour le 19 mars 2024 à 02h00

Nvidia Blackwell — La "super puce" Grace Blackwell 200 lors de la keynote de Jensen Huang à la GTC 2024.

Pour sa première conférence GTC se tenant en physique depuis le Covid-19, Nvidia a vu grand : la conférence d'ouverture de son patron Jensen Huang s'est tenu au SAP Center de San Jose (Californie), un stade de hockey capable d'accueillir beaucoup plus de public (11 000 personnes) que le centre de conventions où se déroule le reste de l'évènement.

L'annonce la plus attendue était sans nul doute celle de sa nouvelle architecture GPU optimisée pour l'intelligence artificielle, dénommée Blackwell en l'honneur du mathématicien David Harold Blackwell. Elle succède à l'architecture Hopper, qui avait été lancée en 2022. Et le nouveau produit phare en tirant parti, dont l'existence avait déjà fuité lors des résultats financiers de Dell, est également dévoilé.

Deux GPU fusionnés pour créer le B200

Oubliez le H100 (que nombre de concurrents essaient de détrôner), les B100 et B200 sont désormais les GPU à abattre. Nvidia a mis l'accent sur le B200, qui est un assemblage de deux GPU Blackwell côte à côte sur un même package (comme des chiplets en gros, mais que Nvidia appelle une "super puce IA"), reliés entre eux par une connexion NV-HBI à 10 To/s pour fonctionner comme une seule puce. L'IA générative a besoin de GPU toujours plus massifs, et pour passer outre les limites actuelles des capacités de fabrication de ces puces, Nvidia en fait travailler plusieurs ensembles comme si elles ne faisaient qu'une.

A gauche, Blackwell ; à droite, Hopper.

Le B200 est gravé avec un processus de fabrication TSMC 4NP customisé pour Nvidia, plutôt que sur le processus N3. Il contient au total 208 milliards de transistors, soit 2,5 fois plus qu'un H100 (ce qui n'est pas énorme étant donné que le B200 combine deux GPU). Il utilise 192 Go de mémoire HBM3E (à 8 To/s de bande passante). Tout cela lui permet d'être 2,5 fois plus rapide en précision FP8 (avec 10 petaflops de puissance de calcul "sparse"), et 5 fois plus rapide en FP4 (20 petaflops pour de l'inférence).

De l'inférence en précision FP4 pour des performances doublées

Les GPU Blackwell sont en effet dotés d'un "moteur de transformers" de seconde génération qui leur permet de doubler leurs performances (calcul et taille de modèle) en faisant de l'inférence à une précision FP4 plutôt qu'en FP8. La précision FP6 est aussi disponible. Blackwell intègre par ailleurs un moteur de décompression de données à 800 Go/s, avec lequel Nvidia affirme son ambition d'imposer ses GPU pour le data processing d'ici la fin de la décennie, et une connexion NVLink de 5e génération permettant un débit bidirectionnel de 1,8 To/s par GPU (qui permet de connecter jusqu'à 576 GPU entre eux).

Nvidia promet que cette architecture rendra possible l'entraînement et l'inférence de modèles d'IA générative avec 1000 milliards de paramètres en coûtant 25 fois moins d'argent et consommant 25 fois moins d'énergie qu'avec des GPU Hopper. Les hyperscalers américains (Amazon, Google, Meta, Microsoft) sont évidemment parmi les premiers clients annoncés, tout comme OpenAI. Nul doute qu'à eux cinq ils en ont déjà réservés une grande partie de la production de B200 pour 2024.

GB200, une nouvelle "super puce" utilisant un CPU Grace

Comme pour Hopper, Nvidia a aussi conçu un autre type de "super puce" (en réalité une petite carte) regroupant deux GPU Blackwell et un CPU Grace (qui n'a pas encore de successeur), connectés à 900 Go/s par NVLink-C2C. Le tout complété par des centaines de gigaoctets de mémoire. Le résultat, la Grace Blackwell 200 (GB200), en photo ci-dessous, permet des performances monstrueuses.

Nvidia se fend d'une comparaison osée de cette "super puce" GB200 avec un simple GPU H100 (plutôt qu'une super puce GH100). Elle serait 30 fois plus performante pour faire de l'inférence sur un grand modèle de langage (LLM) à l'échelle d'un cluster, 4 fois plus performante pour l'entraînement, et coûterait et consommerait jusqu'à 25 fois moins. Reste évidemment à voir dans quelles conditions particulières ces gains sont possibles.

Les solutions réseau Nvidia Quantum X800 InfiniBand et Spectrum X800 Ethernet, également annoncés ce jour, permettent une vitesse allant jusqu'à 800 gigabits par seconde et sont utilisés pour relier des systèmes GB200 entre eux.

Nouveaux DGX et SuperPod pour truster le marché du data center

La GB200 est au coeur du système GB200 NVL72 pour data center. Il contient 36 cartes GB200 reliées entre elles par NVLink de 5e génération, complétées par des DPU BlueField 3 pour gérer le stockage et l'optimisation réseau. Il se comporte comme un unique GPU disposant de 1,4 exaflops de puissance de calcul et de 30 To de mémoire.

Une variante appelée DGX GB200 sert à constituer le nouveau DGX SuperPod basé sur ces super puces Grace Blackwell. Il dispose d'une nouvelle architecture à refroidissement liquide et totalise 11,5 exaflops de performance en FP4 et 240 To de mémoire. Nvidia parle d'entraîner et de faire tourner des modèles d'IA générative allant jusqu'à 10 000 milliards de paramètres.

Pour les systèmes rackables, le DGX B200 contient huit GPU B200 et deux CPU Intel Xeon de 5e génération. Ils fournissent jusqu'à 144 pétaops de performances IA, d'après Nvidia, avec 1,4 To de mémoire. De quoi permettre "de l'inférence en temps réel 15 fois plus rapide pour des modèles à 1000 milliards de paramètres par rapport à la génération précédente." Des performances possibles en précision FP4.

La liste des partenaires de Nvidia pour Blackwell

Nvidia propose aussi la carte HGX B200 pour serveurs x86, qui relie entre eux huit GPU B200 et gère une vitesse réseau maximale de 400 gigabits par seconde en utilisant les technologies Nvidia Quantum 2 InfiniBand ou Spectrum X Ethernet. Pour tirer parti de la base installée de H100, Nvidia va en produire une version rétrocompatible qui peut remplacer les anciennes cartes sans rien changer au serveur.

Chez les fournisseurs de cloud dès cette année

Des produits basés sur l'architecture Blackwell seront commercialisés d'ici la fin de l'année. Sans grande surprise, Amazon Web Services, Google Cloud, Microsoft Azure et Oracle Cloud Infrastructure feront partie des premiers fournisseurs cloud à offrir des instances les utilisant.

Fierté française, Scaleway figure aussi sur la liste des fournisseurs, au même titre que Nebius, Singtel, IBM Cloud, Applied Digital, CoreWeave et d'autres. Pour AWS, Google Cloud et Oracle, des instances DGX Cloud co-conçues avec Nvidia seront aussi proposées. Evidemment, Cisco, Dell, Eviden, HPE, Lenovo et Supermicro proposeront des serveurs équipés de GPU Blackwell, de même qu'ASRock, Asus, Gigabyte, Inventec, Pegatron et d'autres.