OpenAI corrige le tir après un lancement compliqué pour GPT-5

Benchmarks bricolés, accès au modèle de raisonnement fortement restreint, disparition de GPT-4o... La sortie de GPT-5 a conduit à une levée de boucliers de la part de la communauté d'OpenAI. La start-up a corrigé le tir depuis, mais son statut de leader du secteur est écorné.

Julien Bergounhoux

Publié le 12 août 2025 à 21h01

CC BY-SA 4.0

OpenAI logo

Le lancement de GPT-5 la semaine dernière ne s'est pas passé tout à fait comme prévu pour OpenAI. Les attentes étaient très fortes, les promesses avaient été très audacieuses, et les utilisateurs ont parfois été très déçus. S'il ne s'agit pas d'un moment "Llama 4" (qui a conduit Meta a complètement revoir son approche), l'entreprise a essuyé nombre de critiques sur divers points, critiques qu'elle a déjà adressé en partie.

GPT-5 ne fait pas vraiment mieux que Claude 4

Les performances des différents modèles de la famille GPT-5 ont rapidement été passées au crible, ainsi que les résultats des benchmarks mis en avant par OpenAI. Les observateurs ont par exemple relevé que GPT-5 ne bat Claude 4 Opus que dans la version modifiée de SWE-bench qu'utilise OpenAI, de laquelle les questions les plus difficiles ont été expurgées. Sur le site officiel de SWE-bench, Claude est toujours en tête.

Cette manipulation des chiffres – qu'on jugera au mieux inélégante – met en lumière le fait que les gains de performances sont relativement mineurs par rapport à l'état de l'art. Autre exemple : Claude Opus 4.1, sorti la semaine dernière, fait aussi bien que GPT-5-high pour la génération de code informatique, le suivi d'instructions, les requêtes longues et les "hard prompts", le tout sans employer de technique dite de raisonnement. Même Gemini 2.5 Pro s'en tire bien face à GPT-5 Thinking sur LMArena, suivant les catégories.

Un accès trop restreint au modèle de raisonnement

Au-delà des benchmarks, il faudra encore un peu de temps pour qu'un consensus émerge quant aux performances réelles de GPT-5 sur diverses tâches. A ce sujet, l'un des plus gros tollés après le lancement a eu trait aux restrictions d'accès à la version de GPT-5 dotée de raisonnement, notamment pour les abonnés à ChatGPT Plus, l'abonnement à 23 euros par mois. Ils n'avaient droit au départ qu'à 200 messages par semaine pour GPT-5 Thinking, le remplaçant d'o3.

Un nombre de requêtes trop bas pour que l'abonnement soit utile, d'après la majorité d'entre eux. OpenAI a rapidement réagit, d'abord en doublant le nombre de messages autorités, puis en testant une limite à 3000 par semaine (encore en cours). Sam Altman a expliqué dans un message sur X qu'il a réalloué les ressources de calcul d'OpenAI pour s'assurer en priorité que les abonnés à ChatGPT ne seraient pas pénalisés avec ce changement de version.

Viennent ensuite les requêtes client par API qu'OpenAI s'est déjà engagée à fournir, puis l'augmentation de la capacité de la version gratuite de ChatGPT, et seulement ensuite les nouveaux contrats pour accéder à l'API. Une façon de prouver son dévouement aux fans de la première heure et aux utilisateurs individuels de manière générale. Il précise aussi qu'OpenAI va doubler ses capacités de calcul au cours des cinq prochains mois, ce qui devrait améliorer la situation.

Créer des modèles plus économes, une vraie nécessité

Les utilisateurs s'étaient aussi plaints du fait que le système de routage intégré à GPT-5, qui envoie les requêtes à différents modèles en fonction de leur complexité, favorisait excessivement le modèle sans raisonnement, moins cher pour OpenAI mais aussi moins pertinent dans ses réponses.

La faute à un bug, d'après Sam Altman. Passons, même s'il est indéniable que les modèles de raisonnement coûtent très cher à l'usage (ils utilisent beaucoup plus de ressources de calcul lorsqu'ils traitent les requêtes) et qu'OpenAI ne peut donc que vouloir en réduire le volume. Dans l'immédiat, la start-up a réparé le système de routage et redonné aux utilisateurs la possibilité de choisir manuellement leur modèle.

Sam Altman a d'ailleurs précisé dans la foulée que l'utilisation de ces modèles de raisonnement connaissait une forte croissance, justifiant l'existence de ces limites de messages par jour. Impossible pour l'entreprise (ou ses concurrents), que ce soit dans 3 mois ou 1 an, de se passer complètement des modèles standards pour effectuer toutes les requêtes avec son modèle le plus performant. Et puis il y a aussi la question de la rapidité d'exécution. GPT-5 est par exemple beaucoup plus rapide qu'o3 pour les tâches liées au code, et c'est sans doute car il est plus économe en ressources.

Les lamentations des adorateurs de GPT-4o

Enfin, une partie des aficionados de ChatGPT s'est élevée contre la disparition de GPT-4o... car sa "personnalité" leur manquait. Il s'agit ici d'utilisateurs se servant du chatbot comme d'une béquille pour pallier leur solitude, y voyant un ami ou même un partenaire amoureux. En réponse à ces complaintes, OpenAI a rétabli GPT-4o, tout en précisant que GPT-5 avait justement été rendu moins flagorneur pour éviter ce type de dérives. Insupportable pour ces âmes en peine qui ont, du moins temporairement, trouvé un peu de répit.