AMD prône un écosystème IA ouvert et un meilleur rapport coût/performance que la concurrence

AMD se targue de couvrir l'ensemble du spectre de l'IA, en réunissant des GPU, des CPU et des logiciels libres de premier plan. Lors d'Advancing AI, la firme a déroulé sa vision de l'écosystème d’IA ouvert et présenté en conséquence ses derniers semi-conducteurs, logiciels et systèmes. Elle a également fait appel à ses plus proches partenaires technologiques, notamment Cohere, Meta, Microsoft, OpenAI, Oracle et xAI pour ne citer qu'eux, afin qu'ils témoignent de leurs usages des GPU du géant de Santa Clara. 

Lisa Su, CEO AMD
Lisa Su, CEO AMD

24 heures après la keynote du patron de Nvidia, Jensen Huang, à Paris pour la conférence GTC, Lisa Su, patronne d'AMD, prenait la parole pour lancer la conférence annuelle de la firme "Advancing AI" de l'autre côté de l'Atlantique, à San José, en Californie.

L'occasion de resserrer les liens avec ses partenaires technologiques et de réaffirmer son ambition en matière d'intelligence artificielle, prônant une "plateforme d'IA intégrée de bout en bout" et une "infrastructure d'IA ouverte et évolutive à l'échelle du rack, construite sur les standards de l'industrie". Une stratégie d'ouverture là où Nvidia fait de plus en plus de choses lui-même avec des technologies propriétaires.

"Nous entrons dans la prochaine phase de l'IA, portée par des standards ouverts, une innovation partagée et le leadership croissant d'AMD dans un vaste écosystème de partenaires matériels et logiciels qui collaborent pour définir l'avenir de l'IA", assure Lisa Su. Et pour appuyer ses propos, la patronne de la firme a officialisé le lancement de ses accélérateurs Instinct série MI350, et fait part de ses avancées sur les solutions rack-scale Helios de dernière génération et sa pile logicielle ouverte ROCm.

Une infrastructure pensée pour l'IA, soutenue par des GPU ultra-performants

Attendue comme le messie, la série MI350, composée des GPU Instinct MI350X et MI355X, offre une puissance de calcul pour l'IA quatre fois plus importante que la précédente génération, et un bond générationnel d’un facteur 35 en matière d'inférence, assure AMD. MI355X offre également des gains significatifs en matière de prix et de performances, générant jusqu'à 40% de tokens par dollar en plus par rapport aux solutions concurrentes.

Le discours d'AMD était focalisé sur cette notion de performances/coût (en "total cost of ownership") pour faire valoir son attractivité. La firme a profité des projecteurs braqués sur elle pour faire la démonstration de son infrastructure d'IA – déjà déployée avec les accélérateurs MI350, les processeurs EPYC de 5ème génération et les cartes réseau Pensando Pollara chez des hyperscalers comme Oracle Cloud Infrastructure (OCI). La disponibilité générale est prévue pour le second semestre 2025.

Autre innovation majeure : la présentation en avant-première son rack de calcul IA de dernière génération baptisé Helios. Disponible en 2026, il sera construit sur la prochaine génération de GPU série MI400 qui, par rapport à ses prédécesseurs, devraient offrir des performances jusqu'à 10 fois supérieures pour l'inférence sur les modèles Mixture of Experts, les CPU AMD EPYC Venice basés sur Zen 6 et les NIC AMD Pensando Vulcano.

Mettre l'accent sur l'open source

La dernière version de sa pile logicielle d'IA, ROCm 7, est quant à elle conçue pour répondre aux exigences croissantes de l'IA générative et des charges de travail de calcul à haute performance, promet AMD. "ROCm 7 offre une meilleure prise en charge des frameworks standard de l'industrie, une compatibilité matérielle élargie et de nouveaux outils de développement, pilotes, API et bibliothèques pour accélérer le développement et le déploiement de l'IA".

AMD a également annoncé la disponibilité à grande échelle de l'AMD Developer Cloud, son environnement cloud entièrement géré, pour les communautés de développeurs et de logiciels libres. Avec ROCm 7 et AMD Developer Cloud, le message est clair : AMD abaisse les barrières et élargit l'accès au calcul de dernière génération.

Des partenaires de taille pour assurer sa croissance

"Aujourd'hui, 7 des 10 plus grands développeurs de modèles et sociétés d'IA exécutent des charges de travail de production sur des accélérateurs Instinct", vante AMD, parmi lesquels Meta, Microsoft, OpenAI et xAI. Présent lors de l'événement, le patron d'OpenAI, Sam Altman, a ainsi évoqué l'importance de l'optimisation holistique du matériel, des logiciels et des algorithmes. Il est également revenu sur le partenariat entre les deux entreprises sur l'infrastructure d'IA.

De leur côté, Cohere et Meta ont expliqué comment l'accélérateur Instinct MI300X est déployé pour l'inférence pour leurs modèles respectifs. Meta suit la feuille de route d'AMD de très près, participant à l'élaboration de la plateforme Instinct MI450. Oracle s'appuie quant à lui sur les GPU MI355X pour son infrastructure cloud et a annoncé qu'il offrirait prochainement des clusters d'IA zettascale accélérés par les derniers processeurs AMD Instinct avec jusqu'à 131 072 MI355X pour permettre aux clients de construire, d'entraîner et d'inférer l'IA à grande échelle.

Des objectifs ambitieux pour 2030

Si la série Instinct MI350 a dépassé l'objectif quinquennal d'AMD d'améliorer de 30 fois l'efficacité énergétique pour l'entraînement de modèles d'IA et le calcul haute performance (atteignant 38x), AMD ne compte pas s'arrêter en si bon chemin.

La firme a ainsi dévoilé un nouvel objectif pour 2030 visant à multiplier par 20 l'efficacité énergétique à l'échelle du rack par rapport à 2024, permettant à un modèle d'IA typique qui nécessite aujourd'hui plus de 275 racks d'être entraîné dans moins d'un rack avec 100% d'utilisation d'ici 2030. Cela voudrait dire consommer 95% d'électricité en moins. Nvidia n'a qu'à bien se tenir.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.