Etude

Une étude de la BBC pointe les défaillances "systémiques" des outils d'IA en matière d'information

Menée sur les quatre assistants d'intelligence artificielle générative que sont ChatGPT, Copilot, Gemini et Perplexity, cette expérimentation visait à déterminer si le public pouvait faire confiance à cette technologie pour s'informer. Elle y répond par la négative, puisque 45 % des réponses générées dans ce cadre présentaient au moins une erreur significative. 

Intelligence artificielle
Intelligence artificielle

Les outils d'intelligence artificielle (IA) générative ne sont pas vraiment dignes de confiance lorsqu'il s'agit de contenus informationnels. C'est ce que démontre une étude coordonnée par l'Union européenne de radio-télévision (UER), menée par la BBC et parue mercredi 22 octobre. Ses conclusions sont sans appel : parmi les quelque 3 000 réponses générées par ChatGPT, Copilot, Gemini et Perplexity sur 30 questions d'actualité, 45 % présentaient au moins une erreur significative.

Gemini, outil le moins fiable

Les quatre outils, respectivement développés par OpenAI, Microsoft, Google et Perplexity, étaient testés sur des critères tels que l'exactitude des informations citées, leur provenance, la qualité éditoriale et le contexte, et ce dans 18 langues avec le soutien d'acteurs publics locaux de l'information. Si les performances de ces agents conversationnels sont différentes, Gemini étant de loin le moins fiable avec "des problèmes importants dans 76 % des réponses", l'efficacité globale est peu reluisante.

"31 % des réponses présentaient de graves problèmes de sourcing : attributions manquantes, trompeuses ou incorrectes", note les auteurs de l'étude. Le tableau devient plus inquiétant encore lorsque celle-ci évoque l'exactitude des faits : 20% des résultats obtenus contenaient "des problèmes d'exactitude majeurs, notamment des détails fantaisistes et des informations obsolètes", ce qui est alarmant quand on sait que ces assistants d'IA sont devenus pour certains des sources d'information.

"Ces défaillances ne sont pas des incidents isolés"

"Cette étude démontre de manière concluante que ces défaillances ne sont pas des incidents isolés", a déclaré Jean Philip De Tender, directeur des médias et directeur général adjoint de l'UER. "Elles sont systémiques, transfrontalières et multilingues, et nous pensons que cela met en péril la confiance du public." Du côté de la BBC, Peter Archer, directeur du programme sur l'intelligence artificielle générative, continue de croire en ces outils et se dit enthousiasmé par l'IA en général.

Il dresse toutefois un parallèle avec une première étude de ce genre également réalisée par le groupe audiovisuel britannique et rendue publique en février dernier. A l'époque, devant la faible fiabilité des mêmes quatre outils, il avait déclaré : "On ne peut pas compter sur les assistants IA pour fournir des informations exactes et ils risquent d’induire le public en erreur." Huit mois plus tard, "malgré certaines améliorations, il est clair que ces assistants présentent encore des problèmes importants", dit-il.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.