Anthropic frappe fort avec Claude Sonnet 4.5 qui surpasse allègrement GPT-5

Seulement quatre mois après la sortie de son modèle Sonnet 4, Anthropic remet le couvert et publie Claude Sonnet 4.5 : toujours plus précis, doté d'un meilleur jugement, capable de travailler en autonomie pendant une trentaine d'heures... ce modèle a surtout le pouvoir de mettre en retrait GPT-5, dont les performances sont loin de l'égaler.

Célia Séramour

Publié le 30 septembre 2025 à 14h55

Simplement le meilleur modèle de code au monde. C'est dans ces termes qu'Anthropic a dévoilé Claude Sonnet 4.5, son tout dernier modèle en date capable d'exceller dans des domaines aussi variés que la finance, la recherche et la cybersécurité. La start-up promet qu'il "suit les instructions de manière plus fiable, identifie mieux les améliorations de code, fait preuve d’un jugement plus solide en matière de refactorisation et génère un code plus prêt pour la production".

Dans les faits, il surpasse GPT-5 et Gemini 2.5 Pro sur la plupart des benchmarks, notamment sur SWE-Bench Verified, Terminal-Bench ainsi que t2-bench, ces duex derniers permettant de comparer les performances des modèles sur les fonctions agentiques.

La fonction "Computer use" mise en avant

Autre atout de taille, il mène le marché dans l'utilisation des ordinateurs, une capacité lancée il y a moins d’un an par l'entreprise. Pour faire simple, il offre un équilibre optimal entre rapidité et coût. Pour Anthropic, il s'agit d'une mise à niveau importante par rapport à son dernier modèle Sonnet 4, sorti il y a environ quatre mois.

Là où Opus 4 pouvait fonctionner de manière autonome pendant sept heures, Sonnet 4.5 le fait pendant 30 heures pour développer une application full-stack, en maintenant concentration et performance tout au long, assure l'entreprise.

Idéal pour un usage en cyber et en finance

Anthropic a procédé à plusieurs tests en interne, notamment en cybersécurité où son modèle aide les défenseurs à détecter, analyser et corriger les vulnérabilités avec rapidité et précision. Dans les services financiers - l'un des domaines prioritaires d'Anthropic -, il surpasse Opus 4.1 (la version la plus récente de notre modèle le plus intelligent) pour des tâches critiques comme la recherche, la modélisation et la prévision.

Plusieurs clients ont ainsi pu tester en avant-première les capacités de Sonnet 4.5, à l'exemple de Netflix qui le met au service de ses développeurs, "il gère tout, du débogage à l’architecture, avec une compréhension contextuelle approfondie, transformant notre vitesse de développement", commente Eric Wendelin, Responsable technique, GenAI pour la productivité des développeurs chez le streamer.

De son côté, Replit assure que son taux d’erreur est passé de 9% avec Sonnet 4 à 0% sur son benchmark interne d’édition de code grâce à Sonnet 4.5. D'autres confirment les performances de ce modèle, à l'instar de Cursor, GitHub, iGent AI, NBIM, Shopify ou encore Thomson Reuters.

Une série de mises à jour complémentaires pour les développeurs

Parallèlement, Anthropic déploie une série de mises à jour destinées aux développeurs. Dans Claude Code, il est désormais possible d'utilisez l'extension VS Code et l'interface terminal mise à jour, avec de nouveaux points de contrôle. De même, avec Claude Agent SDK, il est maintenant possible de construire des agents personnalisés en utilisant les mêmes outils de base, la gestion du contexte et le cadre de permissions que ceux de Claude Code.

La plateforme développeur dédiée propose enfin d'exécuter des agents plus longtemps grâce à la gestion automatique du contexte et à un nouvel outil de mémoire pour stocker et consulter des informations via l’API Claude. Dernier point, Anthropic apporte à Claude App la capacité à exécuter du code pour créer des fichiers et analyser des données, plus rapidement et efficacement avec Sonnet 4.5, le tout disponible pour tous les abonnements payants.