Avec Gemini 2.0, Google met un pied dans le monde des agents IA

En décembre dernier, la firme de Mountain View dévoilait Gemini 1.0, son premier modèle multimodal. Un an plus tard, elle revient avec une seconde version, largement améliorée, à en croire son CEO Sundar Pichai : "Si Gemini 1.0 concernait l'organisation et la compréhension des informations, Gemini 2.0 consiste à les rendre beaucoup plus utiles". Google est prêt à se lancer dans la course aux agents IA.

Gemini 2.0 LLM de Google
Gemini 2.0 arrive.

Google fait monter d'un cran la concurrence dans le merveilleux monde des modèles d'IA dédiés au développement d'agents. Sundar Pichai, CEO de Google et d'Alphabet, s'est fendu de quelques mots pour annoncer le lancement de Gemini 2.0 qu'il qualifie de "notre modèle le plus performant à ce jour".

Il s'agit d'une mise à niveau majeure des précédents modèles multimodaux de la firme - Gemini 1.0 et 1.5 - avec notamment la sortie native d'images et d'audio, et l'utilisation native d'outils, ce qui "permettra de créer de nouveaux agents IA qui nous rapprocheront de notre vision d'un assistant universel, promet Sundar Pichai. Si Gemini 1.0 concernait l'organisation et la compréhension des informations, Gemini 2.0 consiste à les rendre beaucoup plus utiles." Disponible auprès de bêta testeurs, Gemini 2.0 sera prochainement intégré dans différents produits de Google à commencer par son assistant Gemini et sa fonction Search, assure le géant.

Gemini 2.0 Flash, premier d'une grande famille de modèles

Dans un premier temps, la firme choisit de rendre disponible pour tous les utilisateurs de Gemini son modèle expérimental Gemini 2.0 Flash. Faible latence, performances améliorées, capacités multimodales natives,… A l'instar de ses concurrents, Google a bien compris qu'il fallait assimiler certains mots clé à ses modèles. Les chercheurs ayant planché sur le développement de Gemini 2.0 Flash indiquent que ce dernier s'appuie sur le succès de 1.5 Flash, populaire auprès des développeurs, avec la capacité à surpasser même 1.5 Pro sur des benchmarks clés.

"En plus de prendre en charge les entrées multimodales comme les images, la vidéo et l'audio, 2.0 Flash prend désormais en charge la sortie multimodale comme les images générées nativement mélangées avec du texte et la synthèse vocale multilingue dirigée par texte. Il peut également appeler nativement des outils comme Google Search, l'exécution de code ainsi que des fonctions tierces définies par l'utilisateur", affirment Demis Hassabis, CEO de Google DeepMind et Koray Kavukcuoglu, CTO de Google DeepMind.

Le modèle est accessible dès maintenant en tant que modèle expérimental pour les développeurs via l'API Gemini dans Google AI Studio et Vertex AI avec une entrée multimodale et une sortie texte disponibles pour tous les développeurs, et une synthèse vocale et une génération d'images native disponibles pour les partenaires en accès anticipé. La disponibilité générale suivra en janvier, couplée à d'autres tailles de modèles.

Une série de prototypes lancés autour des fameux agents IA

"Nous lançons également une fonctionnalité appelée Deep Research (disponible dans Gemini Advanced dès aujourd'hui, ndlr), qui utilise des capacités de raisonnement avancé et une fenêtre contextuelle longue pour agir en tant qu'assistant de recherche, explorant des sujets complexes et capable de produire des synthèses", ajoute le patron de Google. Conscient de l'effervescence autour des "agents IA", Google ne veut surtout par rater le coche.

La firme a ainsi lancé une série de prototypes. Ceux-ci incluent une mise à jour du projet Astra, son prototype de recherche explorant les capacités futures d'un assistant IA universel, le projet Mariner, qui explore l'avenir de l'interaction agent-humain, notamment avec un navigateur, et Jules, un agent de code alimenté par l'IA qui peut aider les développeurs.

Google est par ailleurs déjà sur le pont pour apporter d'autres améliorations au fil du temps. "Comme prochaine étape, nous apportons les capacités de raisonnement avancé de Gemini 2.0 aux AI Overviews pour aborder des sujets plus complexes et des questions à plusieurs étapes, y compris des équations mathématiques avancées, des requêtes multimodales et du codage". Des tests ont débuté cette semaine et la firme prévoit un déploiement auprès d'un plus grand nombre au début de l'année prochaine, avec une expansion dans davantage de pays et de langues courant 2025.

Le Graal de l'AGI jamais très loin

Sans surprise, la firme glisse quelques mots à l'attention de ses concurrents pour montrer qu'elle est également prête à s'approcher du Graal : l'AGI. "Avec la sortie de Gemini 2.0 Flash et la série de prototypes de recherche explorant les possibilités agentiques, nous avons atteint une étape passionnante de l'ère Gemini. Et nous sommes impatients de continuer à explorer en toute sécurité toutes les nouvelles possibilités à portée de main alors que nous évoluons vers l'AGI".

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.