Oracle va déployer 50 000 GPU AMD Instinct MI450 pour son supercluster IA en 2026

Le futur supercluster OCI dédié à l'IA sera équipé du rack AMD Helios doté de GPU Instinct MI450, de processeurs EPYC de dernière génération (Venice) et de la technologie réseau Pensando (Vulcano), spécialement conçus pour une infrastructure IA à grande échelle.

Rack Helios AMD
Un aperçu des racks Helios d'AMD.

Il y avait déjà Nvidia et son DGX SuperPOD, le supercalculateur de Microsoft Azure AI, Google et ses Pods TPU ou encore Meta avec son supercluster de recherche en IA. Il y aura désormais, en sus, Oracle et son supercluster pour l'IA alimenté par 50 000 GPU Instinct MI450 signés AMD.

Les deux entreprises ont, à l'occasion de l'événement Oracle AI World qui se tient cette semaine à Las Vegas, resserré davantage les liens, alors qu'elles travaillent ensemble depuis des années maintenant. L'ambition est forte et le calendrier serré puisque le déploiement initial doit avoir lieu à partir du troisième trimestre 2026 - les processeurs ont été annoncés pour la première fois en juin dernier -, avec une expansion prévue en 2027 et au-delà.

Une base idéale pour les LLM les plus puissants

Les GPU Instinct MI450 arriveront donc sur Oracle Cloud Infrastructure (OCI). A l'en croire, ces processeurs "constituent la base idéale pour les clients exécutant les modèles de langage les plus avancés, l’IA générative et les workloads de calcul haute performance".

Les clients pourront notamment bénéficier d'un accès à des résultats plus rapides, de gérer des charges de travail plus complexes et de réduire le besoin de partitionnement des modèles en augmentant la bande passante mémoire pour les modèles d’entraînement en IA. Chaque GPU doit ainsi offrir jusqu’à 432 Go de mémoire HBM4 et 20 To/s de bande passante mémoire.

Un rack Helios et des processeurs EPYC faits pour l'IA

Pour supporter le tout, AMD a optimisé au maximum son rack Helios afin de permettre aux clients d’opérer à grande échelle tout en optimisant la densité de performance, les coûts et l’efficacité énergétique grâce à des racks refroidis par liquide et contenant 72 GPU. A cela s'ajoutent des processeurs EPYC, une mise en réseau convergée accélérée par DPU, une mise en réseau évolutive pour l'IA, la stack ROCm ainsi qu'un partitionnement et virtualisation avancés afin de partager en toute sécurité les clusters et d’allouer les GPU en fonction des besoins des charges de travail.

Pour offrir plus de choix aux clients qui développent, entraînent et infèrent l’IA à grande échelle, OCI a également annoncé la disponibilité générale des services OCI Compute avec les GPU Instinct MI355X. Ceux-ci seront disponibles dans le supercalculateur OCI à l’échelle du zettaoctet, pouvant atteindre 131 072 GPU. Cette annonce fait suite aux avancées conjointe des deux entreprises ayant débuté en 2024 avec le lancement des instances basées sur les Instinct MI300X.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.