Google lance un modèle d'IA qui permet aux robots de chercher sur le web avant d'agir

Google DeepMind a levé le voile sur Gemini Robotics-ER 1.5 et 1.5, deux modèles fonctionnant ensemble. Le premier aide les robots à raisonner sur des tâches complexes avant de traduire les résultats en instructions en langage naturel, tandis que le second les transforme en actions réelles.

Google Gemini Robotics 1.5 DeepMind
Google Gemini Robotics 1.5 DeepMind

Google n'entend pas se laisser distancer dans la course au développement de modèles robotiques. DeepMind, filiale d'IA du géant du web, a présenté le 25 septembre Gemini Robotics-ER 1.5 et Gemini Robotics 1.5, deux modèles conçus pour permettre aux robots d'effectuer des tâches plus complexes, de manière plus planifiée et réfléchie. Ces outils sont dérivés de Gemini Robotics, les premiers modèles vision-langage-action dévoilés par la firme en mars.

Un modèle pour la planification, un autre pour l'exécution

D'après Google DeepMind, ces deux modèles combinés laissent la possibilité aux robots d'effectuer des tâches plus diversifiées et plus longues, en prenant en compte des données extérieures. Le premier, Gemini Robotics-ER 1.5, est un modèle de raisonnement vision-langage défini comme un “orchestrateur d'activités” d'un robot. Plus concrètement, il va traiter les instructions, analyser l'environnement spatial du robot et affiner sa recherche en s'aidant d'outils numériques tels que Google Search.

Schéma fonctionnement Gemini Robotics 1.5

Gemini Robotics-ER 1.5 génère ensuite un plan avec différentes étapes, chaque étape étant liée à une instruction. C'est à ce moment que le modèle vision-langage-action (VLA) Gemini Robotics 1.5 prend le relais : il va transformer les instructions en actions réelles, quitte à ajuster ces commandes en s'aidant de données visuelles. “Gemini Robotics 1.5 aide également le robot à réfléchir à ses actions pour mieux résoudre des tâches sémantiquement complexes, et peut même expliquer ses processus de pensée en langage naturel”, explique dans un communiqué Carolina Parada, responsable de la robotique chez DeepMind.

Des performances supérieures à la version de raisonnement de GPT-5

Google DeepMind a uniquement testé les modèles sur des robots Aloha – développés par l'Université de Stanford – mais assure qu'ils peuvent s'adapter à certains robots humanoïdes, comme Apollo d'Apptronik, et aux robots bi-bras de Franka. L'entreprise revendique des performances supérieures aux principaux modèles de raisonnement du marché, en particulier ceux d'OpenAI (versions de GPT-5, 5-Mini et 5-Nano), à partir des résultats agrégés de 15 benchmarks.

Avec ce modèle, Google a aussi porté ses efforts sur l'apprentissage. “Gemini Robotics 1.5 démontre une remarquable capacité d'apprentissage à travers différentes incarnations, poursuit Google DeepMind. Il peut transférer les mouvements appris d'un robot à un autre, sans nécessiter de spécialisation du modèle pour chaque nouvelle incarnation.” Le modèle de raisonnement ER 1.5 est d'ores et déjà disponible pour les développeurs via l'API Gemini dans Google AI Studio, tandis que le modèle VLA l'est pour certains partenaires.

La course aux modèles de raisonnement robotique s'intensifie

Google DeepMind n'est pas le seul à se lancer dans le développement de modèles de raisonnement appliqués à la robotique. Le mois dernier, l'Allen Institute for AI (Ai2) a présenté l'“action reasoning model” MolmoAct 7B, qui permet de tracer une trajectoire de raisonnement visuel en une suite de points afin de définir le mouvement des bras du robot dans l'espace. Le plan d'action est ensuite converti en commandes spécifiques.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.