La navigation web débarque dans l'API Gemini

Après Anthropic et OpenAI, c'est au tour de Google de lancer son propre modèle capable de prendre le contrôle d'un ordinateur et naviguer sur le web avec un meilleur niveau de précision et une latence réduite par rapport à ses concurrents.

Célia Séramour

Publié le 9 octobre 2025 à 06h36

Google a lancé ce 7 octobre en public preview – via l'API Gemini dans Google AI Studio et Vertex AI – son modèle Gemini 2.5 Computer Use basé sur les capacités de compréhension visuelle et de raisonnement de Gemini 2.5 Pro (version de juin 2025). Ces fonctionnalités, originellement présentées sous le nom de projet Mariner, avaient été intégrées à Gemini au mois de mai mais n'étaient pas accessibles via l'API (ni dans des agents) à date.

Ce modèle alimente des agents capables d’interagir avec des interfaces utilisateur (UI) et, d'après Google, surpasse les alternatives concurrentes sur plusieurs benchmarks de contrôle web et mobile, notamment OpenAI Computer-using model ainsi que Claude Sonnet 4 et 4.5 tout en offrant une latence réduite.

Gemini 2.5 Computer Use combine ainsi une précision dépassant le seuil de 70% pour une latence d'environ 225 secondes. Si le modèle Gemini 2.5 Computer Use est principalement optimisé pour les navigateurs web, Google assure qu'il montre également un fort potentiel pour les tâches de contrôle d’interfaces mobiles. Il n’est toutefois pas encore optimisé pour le contrôle au niveau du système d’exploitation de bureau.

La sécurité by design

En ce qui concerne la sécurité, les équipes Google ont opté pour une intégration des fonctionnalités de sécurité directement dans le modèle pour répondre à trois catégories de risques majeurs connus concernant l'utilisation malveillante intentionnelle, les modes de défaillance involontaires du modèle, la divulgation d’informations sensibles ou nuisibles.

De plus, la firme prévoit de fournir aux développeurs des contrôles de sécurité leur permettant d’empêcher le modèle d’exécuter automatiquement des actions potentiellement risquées ou nuisibles, comme compromettre l’intégrité ou la sécurité d’un système, contourner des CAPTCHA ou encore contrôler des dispositifs médicaux.

De premiers résultats prometteurs

Pour prouver de ses capacités, Google a mis ses propres équipes à contribution. Ces dernières ont déployé le modèle en production pour des cas d’usage incluant des tests d’interface utilisateur, accélérant significativement le développement logiciel. Des versions de ce modèle alimentent également Project Mariner, l’agent de test Firebase, et certaines fonctionnalités agentiques du mode IA dans la Recherche. Les premiers résultats de ces bêta testeurs semblent prometteurs.

Par exemple, l'équipe de la plateforme de paiements de Google, qui a utilisé le modèle Computer Use comme mécanisme de secours pour les tests UI fragiles, responsables de 25% des échecs de tests, affirme que lorsque des scripts conventionnels échouent, le modèle évalue l’état actuel de l’écran et détermine automatiquement les actions nécessaires pour terminer le workflow. "Cette implémentation permet désormais de rétablir plus de 60% des exécutions (qui prenaient auparavant plusieurs jours à corriger)".

La navigation web débarque dans l'API Gemini

La sécurité by design

De premiers résultats prometteurs

À lire aussi