Stability AI rapporte de meilleures performances avec les Intel Gaudi 2 que les H100 de Nvidia

Les accélérateurs Gaudi 2 sont-ils une option face aux H100 de Nvidia, jugés coûteux et dont l'approvisionnement pourrait se complexifier ? C'est ce qui ressort d'une batterie de tests effectués par la start-up britannique Stability AI en matière d'entraînement et d'inférence.

Stability.ai stable diffusion v3
Stability.ai stable diffusion v3

Serait-ce la fin du monopole Nvidia en matière d'intelligence artificielle ? C'est en tout cas ce que prétend Stability AI. Dans un article de blog, la start-up britannique est notamment revenue sur les critères de performance et les avantages des différentes solutions de calcul.

Pour cela, l'entreprise a entraîné deux de ses modèles et comparé la vitesse d'entraînement des accélérateurs Intel Gaudi 2 à celle des accélérateurs Nvidia A100 et H100. Selon Stability AI, il s'agit de "deux des choix les plus courants pour les start-up et les développeurs qui entraînent des LLM".

Stable Diffusion 3 équipé des accélérateurs Gaudi 2

Le premier modèle à avoir servi durant cette expérimentation n'est autre que Stable Diffusion 3, une famille de modèles de conversion texte-image publiée fin février. Pour l'heure, Stable Diffusion 3 n'est disponible qu'en accès restreint mais il est prévu qu'à terme, cette version soit proposée dans une plage allant de 800 millions à 8 milliards de paramètres. Dans le cas présent, la société affirme avoir utilisé la version à 2 milliards de paramètres et a donné des "résultats agréablement surprenants".

Les résultats du benchmark d'entraînement sur 2 nœuds, soit un total de 16 accélérateurs Gaudi 2, montrent qu'en maintenant la taille des lots ("batchsize", ndlr) constante, le système a traité 927 images par seconde, soit 1,5 fois plus vite que le H100-80GB. En doublant la taille des lots - soit à 32 par accélérateur - il a même été possible de faire grimper le taux d'entraînement à 1 254 images/sec.

Par ailleurs, en augmentant le nombre à 256 accélérateurs dans le test suivant, les accélérateurs Gaudi 2 sont, une fois de plus, plus performants avec un rendu de 1 254 images/seconde. Dans cette configuration, le cluster Gaudi 2 a en effet traité trois fois plus d'images par seconde que les GPU A100-80GB. Et ce, malgré que les A100 soient reconnus pour posséder une pile logicielle très optimisée.

Les puces Intel et Nvidia au coude à coude sur la phase d'inférence

Lors des tests d'inférence avec le modèle de paramètres Stable Diffusion 3 8B, on note que les puces Gaudi 2 offrent une vitesse d'inférence similaire à celle des puces Nvidia A100 en utilisant la base PyTorch. Cependant, avec l'optimisation TensorRT, les puces A100 produisent des images 40% plus rapidement que Gaudi 2. Stability AI affirme qu'en poussant davantage l'optimisation, les accélérateurs Gaudi 2 seront capables de surpasser les puces A100 sur ce modèle.

La start-up estime pour sa part que la mémoire plus élevée et l'interconnexion rapide de Gaudi 2, couplées à d'autres considérations de conception, rendent cet accélérateur compétitif pour exécuter l'architecture Diffusion Transformer qui sous-tend sa dernière génération de LLM.

Une version fine-tuned de Llama 2 70B également testée

En parallèle, Stability AI a travaillé sur Stable Beluga 2.5 70B qui s'avère être une version fine-tuned de Llama 2 70B et basée sur le modèle Stable Beluga 2. Dans le cas présent, l'entraînement a été réalisé sur 256 accélérateurs Gaudi 2. "En exécutant notre code PyTorch tel quel, sans optimisations supplémentaires, nous avons mesuré un débit moyen total impressionnant de 116 777 jetons/seconde", indique la start-up.

Sur les tests d'inférence avec son modèle de langage 70B sur Gaudi 2, la start-up indique qu'il génère 673 jetons/seconde par accélérateur, en utilisant une taille de jeton d'entrée de 128 et une taille de jeton de sortie de 2048. Résultat : par rapport à TensorRT-LLM, Gaudi 2 semble être 28% plus rapide que les 525 tokens/seconde pour l'A100.

Les accélérateurs Intel offrent un bon rapport prix/performances

In fine, si les accélérateurs Nvidia présentent de très bons résultats dans l'ensemble, il n'en reste pas moins que ceux d'Intel pourraient devenir une alternative redoutable. Et ils ont déjà un avantage considérable : ils sont plus accessibles financièrement et les délais de livraison pour avoir des accélérateurs Gaudi 2 sont moins longs que pour des H100 ou des A100.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.