AWS s'appuie sur ses puces Trainium 2 pour développer Rainier, un "méga UltraCluster" d'IA

Le géant du cloud avance sur Project Rainier, un système de calcul conçu pour entraîner des modèles d’IA avancés. La machine, présentée comme un "méga UltraCluster", repose sur Trainium 2, une puce développée sur mesure, capable d’exécuter mille milliards de calculs par seconde. Ce type d’intégration verticale est l’un des éléments qui pourraient conférer à AWS un sérieux avantage dans la course à l’accélération du machine learning et à la réduction des obstacles financiers pour rendre l’IA plus accessible. Anthropic sera son premier client.

Cluster IA - Amazon Web Services
Cluster IA - Amazon Web Services

Project Rainier. Empruntant son nom à un volcan que l'on peut apercevoir depuis Seattle, ce projet s'attèle à développer "ce qui devrait être l'ordinateur le plus puissant au monde pour l'entraînement de modèles d'intelligence artificielle". Annoncé à la fin de l'année dernière et désormais bien avancé, le projet Rainier développé par Amazon Web Services, la branche cloud d'Amazon, est réparti sur plusieurs centres de données aux États-Unis.

Et son premier client ne devrait être autre que la start-up Anthropic, financée majoritairement par le géant du cloud et utilisatrice de ses services cloud et de calcul. L'entreprise utilisera donc ce tout nouveau "cluster de calcul IA" pour créer et déployer les futures versions de son modèle d'IA leader, Claude.

"Rainier fournira cinq fois plus de puissance de calcul que le plus grand cluster d'entraînement actuel d'Anthropic", assure Gadi Hutt, directeur de l'ingénierie produit et client chez Annapurna Labs, la branche spécialisée dans les puces d'AWS chargée de la conception et de la construction du matériel qui alimentera le projet.

Un immense cluster reposant sur les Trainium 2

En effet, derrière ce cluster se cachent les puces Trainium 2 d'AWS - commercialisées depuis décembre 2024 -, spécialisées dans le traitement d'importantes quantités de données nécessaires pour apprendre aux modèles d'IA à accomplir rapidement des tâches variées et de plus en plus complexes. Pour mémoire, une puce est capable d'effectuer des milliards de calculs par seconde. "Une tâche qui nécessiterait des millénaires à un humain peut être réalisée en un clin d'œil grâce à Trainium 2".

Le projet prendra ainsi la forme d'un immense "EC2 UltraCluster of Trainium2 UltraServers", commente Amazon, faisant référence à Amazon Elastic Compute Cloud (EC2), un service de la firme qui permet aux clients de louer des machines virtuelles dans le cloud plutôt que d'acheter et de maintenir leurs propres serveurs physiques.

Les UltraServers combinent pour leur part quatre serveurs Trainium 2 physiques, chacun équipé de 16 puces Trainium 2. Ils communiquent via des connexions haut débit spécialisées appelées NeuronLinks. Avec, les données peuvent circuler beaucoup plus rapidement au sein du système et accélèrent considérablement les calculs complexes sur les 64 puces. Dans le cadre de ce projet, ce sont "des dizaines de milliers de ces UltraServers" qui devraient être connectés ensemble pour obtenir un "UltraCluster", autrement dit le projet Rainier.

Prendre en compte l'aspect environnemental

Pour ce projet, Amazon assure avoir donné une place importante à la durabilité, surtout à une échelle aussi grande. Les centres de données sur lesquels repose ce projet consomment une énergie fournie à "100% par des ressources énergétiques renouvelables", et ce depuis 2023, précise la firme.

Amazon a massivement investi dans l'énergie nucléaire et le stockage par batteries ces dernières années, ainsi que dans le financement de projets d'énergie renouvelable à grande échelle à travers le monde pour alimenter ses opérations. De fait, depuis cinq ans, Amazon revendique le titre de plus grand acheteur d'énergie renouvelable au monde et poursuit son objectif de neutralité carbone d'ici 2040. Un objectif qui reste inchangé avec le Projet Rainier.

Optimiser les nouveaux sites ainsi que le parc existant

Par ailleurs, les nouveaux sites construits pour soutenir ce projet vont intégrer de nouveaux composants combinant des avancées en matière d'alimentation, de refroidissement et de matériel. A la clé, une réduction de la consommation d'énergie mécanique jusqu'à 46% et des émissions de carbone du béton utilisé de l'ordre de 35%.

Par exemple, les centres de données du comté de St. Joseph, dans l'Indiana, l'un des sites du Projet Rainier, optimiseront l'utilisation de l'air extérieur pour le refroidissement. D'octobre à mars, ils n'utiliseront aucune eau pour le refroidissement, tandis qu'en moyenne, d'avril à septembre, ils n'utiliseront l'eau de refroidissement que quelques heures par jour.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.
Cherche talents numériques
Les webinars