Google dévoile Gemma, une famille de modèles ouverts basés sur Gemini

Construits à partir des recherches et de la technologie utilisées pour créer Gemini, les modèles Gemma démontrent des performances supérieures à celles de Llama-2 (pour les versions 7B et 13B) pour des tests portant sur la compréhension des langues, le raisonnement et la sécurité. Deux tailles de modèles (2 et 7 milliards de paramètres) sont disponibles dans Vertex AI et sur Hugging Face.

Célia Séramour

Publié le 21 février 2024 à 15h45

Gemma Google - LLM IA — Google a présenté Gemma, une famille de modèles ouverts basés sur les modèles Gemini. Gemma se décline en deux tailles : un modèle à 7 milliards de paramètres pour le déploiement et le développement efficaces sur GPU et TPU, et un modèle à 2 milliards de paramètres pour les applications sur CPU et appareils.

Ce 21 février, Google a annoncé Gemma, une famille de modèles ouverts construits à partir des mêmes éléments techniques et d'infrastructure que ceux utilisés pour créer les modèles Gemini. "Nous avons entraîné les modèles Gemma sur un maximum de 6T tokens de texte, en utilisant des architectures, des données et des méthodes d'entraînement similaires à celles de la famille de modèles Gemini".

De fait, le géant de Mountain View assure que les modèles Gemma atteignent les meilleures performances de leur catégorie pour leurs tailles par rapport aux autres modèles ouverts. Deux tailles sont disponibles : Gemma 2B et Gemma 7B, chaque taille étant publiée avec des variantes pré-entraînées. La firme précise que le modèle à 7 milliards de paramètres servira pour le déploiement et le développement efficaces sur GPU et TPU, tandis que le modèle à 2 milliards de paramètres se destine aux applications sur CPU et appareils.

Un rapprochement avec Nvidia pour assurer l'optimisation de Gemma sur ses GPU

En parallèle de cette famille de modèles, Google publie une boîte à outils d'IA générative pour fournir des conseils et des outils essentiels pour créer des applications d'IA avec Gemma. Il est également précisé que Google fournit "des chaînes d'outils pour l'inférence et le fine-tuning supervisé (SFT) dans tous les principaux frameworks : JAX, PyTorch, TensorFlow via Keras 3.0 natif et Hugging Face Transformers".

Ces modèles sont par ailleurs capables de fonctionner sur un ordinateur portable, un poste de travail ou sur Google Cloud, assure la firme. Google précise s'être associé à Nvidia pour optimiser Gemma pour les GPU Nvidia, "du centre de données au cloud en passant par les PC RTX AI".

130 modèles disponibles dans Vertex AI

La famille de modèles Gemma vient rejoindre "plus de 130 modèles dans le jardin de modèles de Vertex AI", affirme par ailleurs Google. Récemment, la firme a annoncé la disponibilité d'autres modèles : Gemini 1.0 Pro, 1.0 Ultra et 1.5 Pro. En s'appuyant sur Vertex AI, les développeurs peuvent réduire les frais opérationnels et se concentrer sur la création de versions sur mesure de Gemma optimisées pour leur cas d'utilisation.

Et les possibilités sont nombreuses. Cela inclut la création d'applications d'IA générative pour des tâches légères telles que la génération de texte, le résumé et les questions-réponses. Google donne également en exemple la possibilité pour les développeurs de prendre en charge les cas d'utilisation de l'IA générative en temps réel qui nécessitent une faible latence, tels que la diffusion de texte en continu.

Si l'on s'intéresse aux performances annoncées par Google et son modèle Gemma 7B, il s'avère que ce dernier récolte un score bien meilleur que les versions 7B et 13B de Llama-2 sur des tests de raisonnement, de mathématiques ou de code.

Passer du prototype à la production avec GKE

Les utilisateurs peuvent, en parallèle, déployer Gemma directement sur GKE pour créer leurs propres applications d'IA générative, et créer ainsi des prototypes ou encore tester les capacités des modèles. Sont cités en exemple les cas suivants : déployer des modèles personnalisés et affinés dans des conteneurs portables aux côtés d'applications utilisant des chaînes d'outils familières, personnaliser les configurations de service de modèle et d'infrastructure sans avoir besoin de provisionner ou de maintenir des nœuds, intégrer rapidement l'infrastructure d'IA avec la possibilité d'évoluer pour répondre aux scénarios d'entraînement et d'inférence les plus exigeants.

Pour mémoire, GKE offre une gestion efficace des ressources, des environnements opérationnels cohérents et une mise à l'échelle automatique. Il fournit des outils pour créer des applications personnalisées, du prototypage de projets simples à leur déploiement à l'échelle de l'entreprise.

Il propose également une orchestration simple des accélérateurs d'IA de Google Cloud, notamment des GPU et des TPU, pour accélérer l'entraînement et l'inférence de modèles d'IA générative.

Des crédits gratuits pour la recherche et le développement

Les clients Google Cloud peuvent commencer dès aujourd'hui à personnaliser et à créer des modèles Gemma dans Vertex AI et à les exécuter sur Google Kubernetes Engine (GKE). La firme pousse, sans grande surprise, son produit auprès de la communauté de chercheurs et de développeurs.

Elle annonce ainsi "un accès gratuit à Kaggle et aux blocs-notes Colab et 300 $ de crédits pour les nouveaux utilisateurs de Google Cloud. Les chercheurs peuvent également demander des crédits Google Cloud allant jusqu'à 500 000 $ pour accélérer leurs projets".

Google dévoile Gemma, une famille de modèles ouverts basés sur Gemini

Un rapprochement avec Nvidia pour assurer l'optimisation de Gemma sur ses GPU

130 modèles disponibles dans Vertex AI

Passer du prototype à la production avec GKE

Des crédits gratuits pour la recherche et le développement

À lire aussi