Les hallucinations restent un défi majeur, admet OpenAI, mais rien n'est perdu

OpenAI propose de repenser les métriques d'évaluation des modèles d'IA. Expliquant que les systèmes d’IA hallucinent parce que les méthodes d’entraînement standard récompensent les réponses erronées plutôt que l’admission de l’incertitude, la start-up espère ouvrir une voie pour résoudre les problèmes de qualité de l'IA. Si le secteur ne répond pas à son appel, cela permet a minima de mieux prendre conscience des limites de l'IA actuelle.

Célia Séramour

Publié le 9 septembre 2025 à 15h04

Peu importe l'entreprise spécialisée dans le développement de modèles d'intelligence artificielle, un défi reste particulièrement difficile à résoudre complètement : les hallucinations. Dans le cas d'OpenAI, cela correspond aux cas où un modèle génère une réponse avec assurance, alors qu’elle est fausse.

Le créateur de ChatGPT a donc passé au scanner ses modèles dans une étude. Sa conclusion est simple : "Les modèles de langage hallucinent parce que les procédures standard d’entraînement et d’évaluation récompensent les conjectures plutôt que la reconnaissance de l’incertitude."

Les derniers modèles s'améliorent du point de vue des hallucinations

A en croire l'étude réalisée, les évaluations traditionnelles, axées sur la précision, poussent les modèles à deviner pour maximiser leurs scores, plutôt qu’à admettre ne pas savoir. Résultat : "ChatGPT hallucine aussi. GPT-5 présente significativement moins d’hallucinations, en particulier lors de raisonnements, mais elles persistent", concède la start-up.

Pour OpenAI, les hallucinations proviennent du mécanisme même de prédiction du mot suivant, qui ne permet pas de distinguer les faits rares ou aléatoires. Leurs derniers modèles doivent réduire ce type d'erreurs, mais le problème reste structurel et nécessite des changements profonds dans la façon d’évaluer et d’entraîner les IA.

Pénaliser les réponses fausses, valoriser l'incertitude

Mais alors que faire ? OpenAI propose de réformer ces évaluations en pénalisant davantage les "confident errors" (que l'on pourrait traduire par réponses fausses mais affirmées avec certitude) et en valorisant l’expression de l’incertitude. Par exemple, pour les questions où il existe une seule bonne réponse, on peut distinguer trois catégories de réponses : les réponses exactes, les erreurs, et les abstentions où le modèle ne se risque pas à une conjecture.

Selon OpenAI, "s'abstenir fait partie de l’humilité". La société indique qu’il est préférable d’exprimer son incertitude ou de demander des clarifications plutôt que de fournir une information erronée avec assurance. Prenant le cas de son ancien modèle o4-mini, l'entreprise explique qu'il performait légèrement mieux en termes de précision. Cependant, son taux d’erreurs (c’est-à-dire d’hallucinations) était significativement plus élevé.

Plusieurs pistes pour réformer la façon d'évaluer les modèles d'IA

En résumé, OpenAI propose plusieurs pistes pour évaluer les modèles de langage sans encourager les hallucinations : pénaliser les "confident errors", récompenser l’expression de l’incertitude, réformer les métriques d’évaluation en intégrant le taux d’abstentions (réponses du type « Je ne sais pas ») et la calibration (la capacité du modèle à estimer correctement sa propre incertitude), mais aussi éviter les incitations à deviner.

Enfin, la société prône l'intégration des évaluations contextuelles afin de prendre en compte la complexité des questions (certaines n’ont pas de réponse unique ou claire) et éviter de sanctionner les modèles pour des réponses impossibles à déterminer (par exemple, des informations manquantes ou ambiguës).

Ainsi, alors que les modèles actuels sont optimisés pour avoir raison le plus souvent possible, même au prix de réponses inventées. OpenAI veut les orienter vers l’humilité calculée : mieux vaut une abstention ou une réponse nuancée qu’une affirmation fausse mais catégorique.