En avril dernier, Google mettait le paquet sur l'intelligence artificielle à l'occasion de sa conférence annuelle Cloud Next '25 à Las Vegas : nouveaux TPU, Agentspace, nouvelles API dans Vertex AI… Tout est pensé pour le développement de l'intelligence artificielle générative. Aujourd'hui, la firme revient avec davantage de détails sur ses puces conçes maison, mais aussi les produits qui en découlent, les utilisateurs dits "early adopters" et de nouvelles machines virtuelles.
Anthropic, OpenAI, Meta parmi les acheteurs de TPU
"Les modèles de pointe actuels, notamment Gemini, Veo et Imagen de Google, ainsi que Claude d'Anthropic, sont entraînés et exploités sur des unités de traitement tensoriel (TPU)". La start-up de Dario Amodei a en effet récemment signé un contrat à plusieurs dizaines de milliards de dollars avec le géant lui octroyant un accès aux fameux TPU du géant, jusqu'à un million précisément. Au-delà d'Anthropic, il est clair que cette architecture, plus adaptée aux charges de travail liées à l'IA, notamment l'agentique, a la cote.
La semaine dernière, la maison mère de Google, Alphabet, a publié ses résultats financiers pour le troisième trimestre de l'exercice fiscal 2025. Toutes ses activités sont en croissance, notamment sa branche cloud, qui regroupe une grande partie de ses activités d'IA, et qui a bondi de 34%, atteignant 15,2 milliards de dollars. En cause ? La croissance de Google Cloud Platform (GCP), notamment dans les produits clés, l’infrastructure IA et les solutions d’IA générative. Le carnet de commandes pour ses TPU aurait explosé, OpenAI et Meta ayant notamment fait leurs emplettes auprès du géant.
Une disponibilité dans les semaines à venir
C'est donc sans surprise qu'Ironwood, la septième génération de TPU lancée par Google, sera disponible dans les prochaines semaines. Aussi bien adaptée à l'entraînement de modèles à grande échelle et à l'apprentissage par renforcement complexe (RL), qu'à l'inférence IA à haut volume et faible latence, Ironwood offre des performances pour l’entraînement et l’inférence au moins quatre fois supérieures par rapport à la génération précédente.
Ces TPU Ironwood permettent de connecter jusqu’à 9216 puces dans un seul pod, mises en réseau à 9,6 Tb/s par une technologie propriétaire. Pour donner un ordre de grandeur, cela signifie que les pods Ironwood peuvent fournir 118 fois plus d'exaFLOPS en FP8 que "le concurrent le plus proche". Cette connectivité massive permet aux puces de communiquer rapidement et d’accéder à 1,77 pétaoctets de HBM partagée (ce qui équivaut à environ 40 000 films Blu-ray HD ou le texte de millions de livres), éliminant les goulets d’étranglement de données pour les modèles les plus exigeants.
Tout est fait pour minimiser la latence
Prenant l'image de la route, Google explique qu'il faut penser à "l'ICI comme à une autoroute de données. Dans une configuration classique, relier de nombreux processeurs crée des embouteillages lorsque les puces tentent de communiquer et de partager les données. Ce goulot d’étranglement ralentit tout. La solution (ICI) est un réseau propriétaire dédié — une super autoroute de données à mille voies". Google embarque également sa technologie Optical Circuit Switching (OCS) qui agit comme un tissu dynamique et reconfigurable, redirigeant instantanément les flux en cas d’interruption pour restaurer la charge de travail pendant que les services continuent de fonctionner.
Notons que sur la partie inférence, Google a récemment annoncé une prise en charge améliorée des TPU dans vLLM, permettant aux développeurs de passer des GPU aux TPU, ou d’utiliser les deux, avec seulement quelques modifications de configuration mineures. De même, la firme a également lancé GKE Inference Gateway qui équilibre la charge entre les serveurs TPU pour réduire la latence du premier jeton (TTFT) de 96% et les coûts de service jusqu'à 30%.
Des instances Axion basées sur Arm
Parallèlement à cela, Amin Vahdat, directeur général, IA et Infrastructure et Mark Lohmeyer, directeur général, calcul et Infrastructure IA chez Google Cloud annoncent le lancement de nouvelles instances Axion. "N4A, notre machine virtuelle la plus économique de la série N à ce jour, offre jusqu’à 2 fois de meilleures performances par coût que les VM x86 de génération actuelle. Nous sommes également heureux d’annoncer C4A metal, notre première instance bare-metal, toutes deux bientôt disponibles en preview".
N4A est idéale pour les micro-services, les applications conteneurisées, les bases de données open source, les traitements batch, l’analyse de données, les environnements de développement, l’expérimentation, la préparation de données et les services web qui rendent les applications IA possibles, explique les deux cadres de Google Cloud.
Quand à C4A metal, il s'agit de la première instance bare-metal basée sur l'architecture Arm, qui fournit des serveurs physiques dédiés pour des charges de travail spécialisées telles que le développement Android, les systèmes embarqués automobiles, les logiciels avec exigences de licence strictes, les fermes de tests à grande échelle, ou l’exécution de simulations complexes.
Des retours prometteurs faits par les early adopters
Avec les annonces d’aujourd’hui, le portefeuille Axion comprend désormais trois options : N4A, C4A et C4A metal. Deux séries qui doivent offrir aux clients une réduction du coût total d’exploitation sans compromis sur les performances ou les exigences spécifiques aux charges de travail. Vimeo a déjà eu la chance de tester les instances N4A basées sur Axion et estime que les débuts "sont très prometteurs", selon Joe Peled, directeur senior de l’hébergement et des opérations de diffusion pour Vimeo. "Nous avons observé une amélioration de 30% des performances pour notre charge de travail principale de transcodage par rapport aux VM x86 comparables". De son côté, Rise, entreprise israélienne spécialisée dans les services de publicité dopés à l'IA.
"La migration vers le portefeuille Axion de Google Cloud nous a offert un avantage concurrentiel décisif. Nous avons réduit notre consommation de calcul de 20% tout en maintenant une latence faible et stable grâce aux instances C4A, notamment pour notre service backend de plateforme côté offre (SSP). De plus, les instances C4A nous ont permis d’exploiter Hyperdisk avec exactement le nombre d’IOPS nécessaire pour nos charges de travail avec état, quelle que soit la taille de l’instance", commente Or Ben Dahan, architecte cloud & logiciel chez Rise. "Plusieurs applications en production consomment 15% de CPU en moins par rapport à notre infrastructure précédente, ce qui réduit encore nos coûts".
Une stratégie de développement interne qui porte ses fruits
Ironwood et ces nouvelles instances Axion s’inscrivent ainsi dans la stratégie lancée par Google, à savoir développer en interne tous les processeurs pour les applications de demain. Elles rejoignent ainsi les TPU, les unités de codage vidéo (VCU) pour YouTube, et cinq générations de puces Tensor pour mobile. Et les excellents résultats de Google Cloud la semaine dernière prouvent que le géant ne s'est pas trompé et a misé sur le bon cheval.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
