Intelligence artificielle : Claude 3.5 d'Anthropic peut désormais prendre le contrôle de votre ordinateur

La présentation d'une version améliorée de Claude 3.5 Sonnet dotée d'une fonction "computer use" a de quoi prendre au dépourvu au premier abord. L'idée est simple : demander à Claude d'utiliser un ordinateur comme le font les humains, en regardant un écran, en déplaçant un curseur, en cliquant et en tapant du texte. Anthropic publie en parallèle une mise à niveau de Claude Haiku, son modèle décrit comme le plus rapide et compact.

Célia Séramour

Publié le 23 octobre 2024 à 17h45

Claude profite d'une mise à jour de taille. Cette semaine, Anthropic a dévoilé une ultime version de son LLM phare, Claude 3.5, et plus précisément du modèle Sonnet. Dévoilé pour la première fois en mars dernier, ce modèle est décrit comme "l'équilibre idéal entre intelligence et rapidité, en particulier pour les charges de travail d'entreprise".

Alors que la version 3.0 offre de solides performances à un coût inférieur à celui de ses pairs et est conçue pour une grande endurance dans les déploiements d'IA à grande échelle, la version 3.5 peut, lorsqu'elle est exécutée, suivre les commandes d'un utilisateur pour déplacer un curseur sur l'écran de son ordinateur, cliquer sur les emplacements pertinents et saisir des informations via un clavier virtuel, imitant ainsi la façon dont les gens interagissent avec leur propre ordinateur. La fonction porte un nom pour le moins explicite : "computer use".

L'IA prend doucement le contrôle

La première sensation est plutôt angoissante, mais les équipes d'Anthropic semblent sûres d'elles quant au bien fondé de cette innovation. "Nous pensons que cette compétence, actuellement en version bêta publique, représente une avancée significative dans le domaine de l’IA. [...] Une grande partie du travail moderne est réalisée par l'intermédiaire d'ordinateurs. Permettre aux IA d'interagir directement avec les logiciels informatiques de la même manière que le font les humains ouvrira un large éventail d'applications qui ne sont tout simplement pas possibles pour la génération actuelle d'assistants IA", commente la start-up.

Claude regarde votre écran

Claude a donc été entraîné à interpréter ce qui se passe sur un écran, puis à utiliser les outils logiciels disponibles pour effectuer des tâches. Par exemple, lorsqu'un développeur demande au LLM d'utiliser un logiciel informatique et lui donne l'accès nécessaire, Claude regarde des captures d'écran de ce qui est visible pour l'utilisateur, puis compte le nombre de pixels verticalement ou horizontalement nécessaires pour déplacer un curseur afin de cliquer au bon endroit.

Anthropic précise que ce travail de comptage des pixels avec précision s'est avéré essentiel pour parvenir à ce type d'avancée. Sans cette compétence, le modèle a du mal à donner des commandes à la souris, de la même manière que les modèles ont souvent du mal à répondre à des questions apparemment simples comme "combien de A dans le mot 'banane' ?".

Pour ceux qui sont pointilleux quant à l'attention portée à la sécurité durant l'entraînement des modèles, la start-up précise que le modèle n'a pas pu accéder à Internet pendant cette phase.

Des débuts prometteurs

Si pour l'heure, il ne s'agit que d'une version bêta, les premiers tests semblent prometteurs : le modèle est même capable de s'autocorriger et réessayer des tâches lorsqu'il rencontre des obstacles. Anthropic justifie cela par ce qu'il appelle la nature "flipbook" de la vision de l'écran de Claude : ce dernier peut prendre des captures d'écran et les assembler, plutôt que d'observer un flux vidéo plus granulaire. Cela signifie qu'il peut manquer des actions ou des notifications de courte durée.

La version améliorée de Claude 3.5 Sonnet est disponible dès aujourd'hui pour tous les utilisateurs. Les développeurs peuvent créer avec l'ordinateur une version bêta sur l'API Anthropic, Amazon Bedrock et Vertex AI de Google Cloud.

Le modèle Claude Haiku profite également d'une mise à niveau

Une version 3.5 du modèle Haiku fait également son apparition. Cette ultime version du modèle, décrit comme "le plus rapide", doit offrir des performances intéressantes dans les tâches de codage, notamment face à des modèles comme GPT-4o. Pour mémoire, la version 3.0 offre déjà une réactivité quasi instantanée. Le modèle répond aux requêtes simples avec une vitesse inégalée. La promesse d'Anthropic est simple : avec ce modèle, les utilisateurs peuvent créer des expériences d’IA transparentes qui imitent les interactions humaines.

Il peut également servir dans la modération de contenu (détecter les comportements à risque ou les demandes des clients) et les tâches économiques (logistique optimisée, gestion des stocks, extraction d'informations à partir de données non structurées). Il faudra attendre la fin du mois avant de découvrir le nouveau Claude 3.5 Haiku. Le modèle sera disponible sur l'API propriétaire d'Anthropic ainsi qu'Amazon Bedrock et Vertex AI de Google Cloud, initialement sous forme de modèle texte uniquement et avec une entrée d'image à suivre.

Intelligence artificielle : Claude 3.5 d'Anthropic peut désormais prendre le contrôle de votre ordinateur

L'IA prend doucement le contrôle

Claude regarde votre écran

Des débuts prometteurs

Le modèle Claude Haiku profite également d'une mise à niveau

À lire aussi