Google n'entend pas se laisser distancer dans la course au développement de modèles robotiques. DeepMind, filiale d'IA du géant du web, a présenté le 25 septembre Gemini Robotics-ER 1.5 et Gemini Robotics 1.5, deux modèles conçus pour permettre aux robots d'effectuer des tâches plus complexes, de manière plus planifiée et réfléchie. Ces outils sont dérivés de Gemini Robotics, les premiers modèles vision-langage-action dévoilés par la firme en mars.
Un modèle pour la planification, un autre pour l'exécution
D'après Google DeepMind, ces deux modèles combinés laissent la possibilité aux robots d'effectuer des tâches plus diversifiées et plus longues, en prenant en compte des données extérieures. Le premier, Gemini Robotics-ER 1.5, est un modèle de raisonnement vision-langage défini comme un “orchestrateur d'activités” d'un robot. Plus concrètement, il va traiter les instructions, analyser l'environnement spatial du robot et affiner sa recherche en s'aidant d'outils numériques tels que Google Search.

Gemini Robotics-ER 1.5 génère ensuite un plan avec différentes étapes, chaque étape étant liée à une instruction. C'est à ce moment que le modèle vision-langage-action (VLA) Gemini Robotics 1.5 prend le relais : il va transformer les instructions en actions réelles, quitte à ajuster ces commandes en s'aidant de données visuelles. “Gemini Robotics 1.5 aide également le robot à réfléchir à ses actions pour mieux résoudre des tâches sémantiquement complexes, et peut même expliquer ses processus de pensée en langage naturel”, explique dans un communiqué Carolina Parada, responsable de la robotique chez DeepMind.
Des performances supérieures à la version de raisonnement de GPT-5
Google DeepMind a uniquement testé les modèles sur des robots Aloha – développés par l'Université de Stanford – mais assure qu'ils peuvent s'adapter à certains robots humanoïdes, comme Apollo d'Apptronik, et aux robots bi-bras de Franka. L'entreprise revendique des performances supérieures aux principaux modèles de raisonnement du marché, en particulier ceux d'OpenAI (versions de GPT-5, 5-Mini et 5-Nano), à partir des résultats agrégés de 15 benchmarks.
Avec ce modèle, Google a aussi porté ses efforts sur l'apprentissage. “Gemini Robotics 1.5 démontre une remarquable capacité d'apprentissage à travers différentes incarnations, poursuit Google DeepMind. Il peut transférer les mouvements appris d'un robot à un autre, sans nécessiter de spécialisation du modèle pour chaque nouvelle incarnation.” Le modèle de raisonnement ER 1.5 est d'ores et déjà disponible pour les développeurs via l'API Gemini dans Google AI Studio, tandis que le modèle VLA l'est pour certains partenaires.
La course aux modèles de raisonnement robotique s'intensifie
Google DeepMind n'est pas le seul à se lancer dans le développement de modèles de raisonnement appliqués à la robotique. Le mois dernier, l'Allen Institute for AI (Ai2) a présenté l'“action reasoning model” MolmoAct 7B, qui permet de tracer une trajectoire de raisonnement visuel en une suite de points afin de définir le mouvement des bras du robot dans l'espace. Le plan d'action est ensuite converti en commandes spécifiques.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
