Si OpenAI et Google pensaient avoir une certaine longueur d'avance face à d'autres entreprises plus petites qui travaillent également au développement de grands modèles de langage (LLM), il semble que la tendance s'inverse. La start-up américaine Anthropic (qui profite du soutien financier de Google) vient de dévoiler une famille de modèles appelée Claude 3.
Et le moins que l'on puisse dire, c'est que ces modèles établissent de nouvelles références dans un large éventail de tâches cognitives. La famille comprend trois modèles classés par ordre croissant de capacité : Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus. Ils présentent des capacités accrues en matière d'analyse et de prévision, de création de contenu nuancé, de génération de code et de conversation dans des langues autres que l'anglais, comme l'espagnol, le japonais et le français.
De même, chacun d'entre eux offre aux utilisateurs un choix aussi bien sur le plan des performances, de la vitesse et du coût. Pour Anthropic, il s'agit essentiellement de diffuser ses LLM auprès d'un plus large public. Anthropic précise que pour des cas d'usage spécifiques, une fenêtre contextuelle d'un million de tokens peut être proposée pour chacun de ses modèles.
Opus, un modèle impressionnant qui dépasse GPT-4 et égale Gemini 1.0 Ultra
Anthropic le considère comme son modèle le plus performant, ses résultats étant pour le moins impressionnants sur les tâches les plus complexes. "Il peut répondre à des questions ouvertes et à des scénarios invisibles avec une fluidité remarquable et une compréhension comparable à celle de l'homme. Opus nous montre les limites extrêmes de ce qui est possible avec l'IA générative", indique l'entreprise.
Il surpasse ainsi ses pairs sur la plupart des critères d'évaluation courants pour les systèmes d'IA, notamment les connaissances d'expert de premier cycle (MMLU) avec un résultat de 86,8% contre 86,4% pour GPT-4 et 83,7% pour Gemini 1.0 Ultra. De même, sur les mathématiques de base (GSM8K), son score est de 95% contre 92% pour GPT-4 et 94,4% pour Gemini 1.0 Ultra. En parallèle, il présente des niveaux de compréhension et de fluidité proches de ceux de l'homme pour des tâches complexes, ce qui le place à la pointe de l'intelligence générale.

Avec une fenêtre contextuelle de 200 000 tokens, le LLM Opus peut être utilisé dans l'automatisation des tâches (planification et exécution d'actions complexes à travers des API et des bases de données, codage interactif), pour la recherche et le développement (examen de la recherche, brainstorming et génération d'hypothèses, découverte de médicaments) ou encore pour la stratégie (analyse avancée des tableaux et graphiques, des tendances financières et du marché, prévisions).
Sonnet et Haiku, deux modèles plus abordables
Anthropic a également levé le voile sur les deux autres modèles de Claude 3, à savoir Sonnet et Haiku, qui sont tous deux dotés d'une fenêtre contextuelle de 200 000 tokens. Le premier est décrit comme "l'équilibre idéal entre intelligence et rapidité, en particulier pour les charges de travail d'entreprise". Il offre de solides performances à un coût inférieur à celui de ses pairs et est conçu pour une grande endurance dans les déploiements d'IA à grande échelle. Ses usages sont variés, allant du traitement de données aux ventes en passant par la génération de code, le contrôle qualité et l'analyse de texte à partir d'images.
De son côté, Haiku est le modèle le plus rapide et le plus compact pour une réactivité quasi-instantanée. Il répond aux requêtes simples avec une vitesse inégalée. Les utilisateurs pourront créer des expériences d’IA transparentes qui imitent les interactions humaines. Il peut également servir dans la modération de contenu (détecter les comportements à risque ou les demandes des clients) et les tâches économiques (logistique optimisée, gestion des stocks, extraction d'informations à partir de données non structurées).
Anthropic affirme par exemple qu'il peut lire un document de recherche dense en informations et en données sur arXiv (l'équivalent de 10 000 jetons) avec des tableaux et des graphiques en moins de trois secondes.
Une meilleure compréhension des commandes en langage naturel et des risques
Fait intéressant, Opus, Sonnet et Haiku sont nettement moins susceptibles de refuser de répondre aux commandes textuelles qui frisent les garde-fous du système que les générations de modèles précédentes. Les modèles Claude 3 montrent ainsi une compréhension plus nuancée des demandes, reconnaissent les préjudices réels et refusent beaucoup moins souvent de répondre à des invites inoffensives.
Alex Albert, prompt engineer chez Anthropic, s'est notamment amusé à piéger le modèle Opus dans le cadre d'un test de "l'aiguille et de la botte de foin". Celui-ci consiste à insérer une phrase cible (l'aiguille) – évoquant ici des garnitures de pizza – dans un corpus de documents aléatoires (la botte de foin) – portant sur les langages de programmation – et en posant une question à laquelle on ne peut répondre qu'en utilisant l'information contenue dans l'aiguille.
Opus a dépassé les attentes en trouvant non seulement la fameuse "aiguille" mais en reconnaissant que celle-ci avait été insérée afin de le tester sur ses capacités d'attention et qu'elle n'avait aucun rapport avec le reste des documents fournis.
Opus et Sonnet disponibles dans un premier temps
A date, les versions Opus et Sonnet sont disponibles pour être utilisés dans claude.ai et l'API de Claude qui est maintenant disponible dans 159 pays. Pour rappel, Sonnet alimente l'expérience gratuite sur claude.ai, avec Opus disponible pour les abonnés Claude Pro. Haiku sera bientôt disponible.
Anthropic a également mis à disposition son modèle Sonnet sur Amazon Bedrock ainsi que sur la librairie de modèles dite "model garden" de Google Cloud Vertex AI en private preview. Opus et Haiku devraient arriver prochainement sur ces plateformes.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
