A l'occasion de sa conférence Google I/O, le géant a fait part d'une multitude d'annonces. Si la principale annonce porte sur le déploiement à grande échelle de l’intelligence artificielle générative au sein de son moteur de recherche, il n'en reste pas moins que la firme a travaillé en parallèle sur l'amélioration de sa famille de grands modèles de langage Gemma. Une seconde génération fait donc son apparition – Gemma 2 – aux côtés des modèles de première génération existants en versions à 2 milliards de paramètres et à 7 milliards de paramètres.
"Avec 27 milliards de paramètres, Gemma 2 offre des performances comparables à celles de Llama 3 70B pour une taille inférieure de moitié", se vante Google. La famille de modèles a également été optimisée afin de réduire les coûts de déploiement. "Le modèle 27B est optimisé pour fonctionner sur les GPU NVIDIA ou peut fonctionner efficacement sur un seul hôte TPU dans Vertex AI, rendant le déploiement plus accessible et plus rentable pour un plus large éventail d'utilisateurs".
Gemma 2 au coude à coude avec Llama 3
Pour faire état des performances de ses modèles, Google a pris le soin de se baser sur le leaderboard des LLM ouverts d'Hugging Face. Le graphique publié montre que Gemma 2 talonne Llama 3 70B sur différents test tels que MMLU (teste à la fois la connaissance du monde et la capacité à résoudre des problèmes), HellaSwag (évalue la compréhension avancée du langage naturel et le raisonnement de bon sens dans les modèles d'IA) et GSM8K (test sur la résolution de problèmes de mathématiques).
Par comparaison, le modèle Grok-1 comportant 314 milliards de paramètres est moins performant. Il obtient un score de seulement 73% sur le test MMLU contre 75% pour Gemma 2 et 79,2% pour Llama 3. Sur le test GSM8K, Grok-1 obtient le score de 62,9% contre 75% pour Gemma 2 et 76,9% pour Llama 3. Bien évidemment, les résultats peuvent encore varier jusqu'à la publication de la famille de modèles, Gemma 2 étant encore en phase de pré-entraînement.
PaliGemma, un modèle orienté sur la vision
En parallèle, la famille Gemma s'agrandit également avec PaliGemma, un modèle de langage de vision inspiré de PaLI-3. Ce modèle est construit sur des composants ouverts, notamment le modèle de vision SigLIP et le grand modèle de langage Gemma. Il peut effectuer de nombreuses tâches de vision telles que le sous-titrage d'images, le sous-titrage de courtes vidéos, la lecture de texte, la détection et la segmentation d'objets.

PaliGemma est disponible sur GitHub, Hugging Face, Kaggle, Vertex AI Model Garden et ai.nvidia.com avec une intégration facile via JAX et Hugging Face Transformers.
Vous souhaitez être en veille sur l’actualité du secteur de l’intelligence artificielle ? Inscrivez-vous gratuitement à la newsletter IA Insider.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
