Le système de reconnaissance vocale d'OpenAI, Whisper, hallucine à plein régime

Les problèmes d'hallucinations d'outils reposant sur l'intelligence artificielle avaient cessé de faire les gros titres. Il semble que cette ère prenne fin après la publication de plusieurs rapports mettant en cause l'outil de reconnaissance vocale Whisper développé par OpenAI. Utilisé dans le secteur médical, le système serait pris de fortes hallucinations.

Célia Séramour

Publié le 28 octobre 2024 à 16h14

OpenAI API ChatGPT Whisper — Le 1er mars 2023, OpenAI a annoncé le lancement d’une API pour ChatGPT et Whisper.

Le domaine médical se transforme. Décidé à intégrer les dernières technologies, le secteur regarde avec attention ce que les acteurs technologiques proposent pour moderniser le quotidien des professionnels de santé. Entre autres : l'intelligence artificielle. La sortie de l'outil de reconnaissance vocale Whisper – signé OpenAI –, a ainsi été un tournant décisif pour un certain nombre d'hôpitaux et de centres médicaux et pour des entreprises ayant décidé de construire leur plateforme à partir de cet outil.

C'est le cas de Nabla, start-up parisienne qui a décidé de changer de voie et de miser sur l’intelligence artificielle pour pousser un produit aguicheur sur un marché en plein boom. Ainsi, en mars 2023, la société a annoncé le lancement de Nabla Copilot, un assistant "conçu pour alléger la charge administrative imposée aux prestataires et réduire l'épuisement professionnel des cliniciens".

Ce dernier s’appuie sur des capacités de génération de notes basées sur l'IA, la reconnaissance du codage médical et des intégrations fluides de plateformes de DSE (dossier de santé électronique), notamment grâce à Whisper.

La solution poussée par Nabla sujette à risques

Si les chiffres semblent montrer que l'entreprise a misé sur le bon cheval – plus de 30 000 cliniciens et 40 systèmes de santé, y compris la clinique Mankato dans le Minnesota et l'hôpital pour enfants de Los Angeles – l'outil présente un problème de taille : il est sujet aux hallucinations. Pourtant, il a été fine-tuned sur le langage médical pour transcrire et résumer les interactions des patients, a déclaré Martin Raison, directeur technique de Nabla, comme le rapporte AP News.

Les responsables de l'entreprise ont déclaré qu'ils étaient conscients que Whisper pouvait halluciner et qu'ils s'attaquaient au problème. Seulement voilà, impossible de vérifier si la transcription générée par l'IA de Nabla est juste par rapport à l'enregistrement original car l'outil de Nabla efface l'audio original pour des "raisons de sécurité des données". Il semble donc impossible de savoir à quel point l'outil hallucine.

1% des transcriptions audio contiennent des hallucinations

Pourtant, le problème existe bel et bien. Cinq chercheurs de l'université Cornell, l'université de Washington et d'autres universités ont, dans une étude, découvert qu'environ 1% des transcriptions audio contiennent des bribes de phrases ou des phrases entières hallucinées qui n'existent sous aucune forme dans l'audio sous-jacent.

Plus intéressant encore, l'analyse thématique du contenu halluciné par Whisper révèle que 38% des hallucinations incluent des préjudices explicites tels que la perpétuation de la violence, la création d'associations inexactes ou l'implication d'une autorité fausse.

Une amélioration observée après une mise à jour de Whisper fin 2023

"En avril et mai 2023, les transcriptions générées à partir de 187 segments audio ont produit 312 transcriptions contenant des hallucinations. En moyenne, 1,4% des transcriptions de notre dataset contenaient des hallucinations. Parmi ces hallucinations, 19% incluaient des préjudices perpétuant la violence, 13% incluaient des préjudices d'associations inexactes, et 8% incluaient des préjudices de fausses autorités", détaillent les chercheurs dans leur étude.

En décembre 2023, de nouveaux tests de Whisper sont réalisés sur les mêmes segments audio. Ils montrent une amélioration significative, avec seulement 12 des 187 segments audio continuant à produire des hallucinations. "Cette amélioration est probablement due aux mises à jour de Whisper en novembre 2023", en concluent les chercheurs.

Et ils ne sont malheureusement pas les seuls à démontrer cela. Un ingénieur en apprentissage automatique a ainsi déclaré avoir découvert des hallucinations dans environ la moitié des plus de 100 heures de transcriptions Whisper qu'il a analysées. Un autre développeur a déclaré avoir trouvé des hallucinations dans presque chacune des 26 000 transcriptions qu'il a créées avec l'outil.

Pas de remise en cause chez OpenAI

A terme, ce taux d'erreur pourrait toutefois conduire à un nombre croissant de transcriptions erronées et fausser le gain de temps et d'efficacité recherché par les utilisateurs, qu'il s'agisse du secteur médical ou d'un autre. Et si certains souhaitent se tourner vers OpenAI pour avoir quelqu'un à blâmer, l'entreprise a pensé à se protéger.

Elle recommande ainsi de ne pas utiliser l'API Whisper dans des "contextes de prise de décision à enjeux élevés, où des défauts de précision peuvent entraîner des défauts prononcés dans les résultats". De même, une liste des domaines à haut risque a été faite afin de se dédouaner de toute utilisation détournée de son outil.