Anthropic frappe fort avec ses modèles Claude 4

Deux modèles issus de la famille de modèles Claude 4 font leur apparition : présentés comme les meilleurs du secteur, ils sont capables d'analyser de grands ensembles de données, exécuter des tâches à long terme et réaliser des actions complexes, selon Anthropic. Ils sont particulièrement adaptés au développement d'agents IA et au codage. Autre point intéressant : la start-up a publié Opus 4 avec des garanties renforcées afin d'éviter toute dérive potentielle.

Célia Séramour

Publié le 23 mai 2025 à 11h37

Le mois dernier, Anthropic avait fait sensation avec le lancement de son offre Max allant jusqu'à 200 dollars par mois pour Claude. Aujourd'hui, la start-up revient avec une autre annonce : la publication de deux modèles de la famille Claude 4, à savoir Opus 4 et Sonnet 4. Décrits comme "des modèles de pointe qui établissent de nouveaux standards en matière de codage, de raisonnement avancé et d’agents IA", ces deux modèles sont hybrides et proposent deux modes : des réponses quasi instantanées et une réflexion prolongée pour un raisonnement plus approfondi.

Ils peuvent notamment utiliser des outils comme la recherche web et peuvent même faire appel à plusieurs outils en parallèle et suivre les instructions avec une précision accrue. Lorsqu’ils ont accès à des fichiers locaux fournis par les développeurs, ils sont par ailleurs capables d'extraire et mémoriser des faits clés pour maintenir la continuité dans le développement de projets.

Claude Opus 4 repousse les limites du codage

Dans le détail, Claude Opus 4 est conçu pour rester performant sur des tâches complexes et de longue durée, capable de maintenir un effort concentré sur des milliers d’étapes, entre autres grâce à une fenêtre contextuelle de 200 000 tokens. Lors de tests effectués par l'un des clients d'Anthropic, Rakuten, Opus 4 a démontré une autonomie de travail quasi complète pendant une journée entière (7 heures), marquant une avancée majeure vers la création d’un véritable assistant virtuel.

Claude Opus 4 est atteint le plus haut score sur SWE-bench (72,5%) et Terminal-bench (43,2%) lors de tâches de codage. In fine, Anthropic le présente comme le modèle à adopter, surpassant largement tous les modèles Sonnet ainsi que ceux de ses concurrents tels que Codex-1 d'OpenAI et Gemini 2.5 Pro de Google.

Des retours plus qu'encourageants

Cursor, Databricks, Replit ou encore Thomson Reuters ont également pu l'essayer et ont fait part de retours positifs à son sujet. "Opus 4 a brillé sur l’une des tâches juridiques les plus complexes auxquelles je puisse penser : traiter un dossier complet de contentieux et remplir un jugement sommaire avec des citations précises liées aux éléments spécifiques de la cause", explique Pablo Arredondo, VP, CoCounsel au sein de Thomson Reuters.

Claude Opus 4 est dès à présent disponible sur Claude pour les utilisateurs Pro, Max, Team et Enterprise. Le modèle est également disponible sur l'API Anthropic, Amazon Bedrock et Vertex AI de Google Cloud. Les tarifs de Claude Opus 4 restent les mêmes que pour la version précédente d'Opus et démarrent à 15 dollars par million de jetons d'entrée et 75 dollars par million de jetons de sortie, avec jusqu'à 90% d'économies assurées grâce à la mise en cache rapide et 50% grâce au traitement par lots.

Claude Sonnet 4, successeur direct de Sonnet 3.7

Le modèle Sonnet 4 est quant à lui un remplacement direct de Claude Sonnet 3.7, pertinent sur le codage et le raisonnement, avec un score de pointe de 72,7% sur le test SWE-bench. Bien qu'il ne soit pas comparable à Opus 4 dans la plupart des domaines, il offre un équilibre optimal entre fonctionnalités et praticité. L'un des utilisateurs des modèles d'Anthropic, GitHub, affirme que Claude Sonnet 4 excelle dans les scénarios d'agents et l'a même présenté comme le modèle alimentant le nouvel agent de codage de GitHub Copilot.

D'autres bêta utilisateurs indiquent que Sonnet 4 excelle dans le développement autonome d'applications multifonctions, ainsi que dans la résolution de problèmes et la navigation dans la base de code, réduisant les erreurs de navigation de 20% à près de zéro. Anthropic a fait le choix d'intégrer Sonnet 4 dans Claude pour les utilisateurs gratuits, en sus de sa disponibilité dans les offres payantes. Le modèle est également disponible dans les API d'Anthropic, Amazon Bedrock et Vertex AI de Google Cloud. Enfin, les tarifs restent les mêmes que pour la version précédente de Sonnet : 3 dollars par millions de jetons d'entrée et 15 dollars par million de jetons de sortie.

Une série de mises à jours sur l'agentique

En plus de la famille Claude 4, Anthropic annonce une série de mises à jour visant à améliorer l’efficacité et les capacités agentiques de son IA. Claude Code est ainsi désormais disponible pour tous, que ce soit dans le terminal, les environnements de développement, et en arrière-plan grâce au SDK Claude Code.

La start-up lance par ailleurs quatre nouvelles fonctionnalités sur l’API Anthropic pour que les développeurs puissent créer des agents IA plus puissants : un outil d’exécution de code, un connecteur MCP (protocole dévoilé lors de Microsoft Build 2025), une API de fichiers, et la possibilité de mettre en cache les requêtes jusqu’à une heure.

Anthropic apporte des garanties sur la sécurité

En parallèle de la publication de Claude Opus 4, la start-up a activé des normes de déploiement et de sécurité du Niveau 3 de Sécurité de l'IA (ASL-3), telles que décrites dans sa politique de déploiement responsable (RSP). Cette norme ASL-3 comprend des mesures de sécurité internes renforcées, destinées à rendre plus difficile le vol des poids du modèle. La norme de déploiement associée concerne un ensemble restreint de mesures ciblées, conçues pour limiter le risque que Claude soit utilisé à mauvais escient, en particulier dans le cadre du développement ou de l’acquisition d’armes chimiques, biologiques, radiologiques et nucléaires (CBRN).

Anthropic précise que ces mesures ne devraient pas amener Claude à refuser des requêtes, sauf sur un ensemble de sujets très limité. L'un des employés d'Anthropic en charge de la sécurité dans le développement de l'IA, Sam Bowman, a d'ailleurs publié un tweet pour le moins controversé à ce sujet : "S’il pense que vous faites quelque chose de gravement immoral — par exemple, falsifier des données dans un essai pharmaceutique — il utilisera des outils en ligne de commande pour contacter la presse, alerter les régulateurs, essayer de vous bloquer l’accès aux systèmes concernés, ou tout cela à la fois".

Sam Bowman a rapidement supprimé son tweet, expliquant qu'il ne s'agit pas d'une nouvelle fonctionnalité de Claude et qu'elle n'est pas disponible pour une utilisation normale. Reste que le message a bel et bien été publié à un instant T et interroge sur les réelles fonctions de ces modèles et leurs limites.