Les problèmes de ChatGPT en matière de protection des données sont-ils solubles ?

Les efforts fournis jusqu'ici par OpenAI ne sont pas suffisants pour assurer le respect par son chatbot du principe d'exactitude des données du Règlement général sur la protection des données (RGPD). Voici la conclusion du Comité européen de la protection des données (EDPB), organisme indépendant qui réunit les autorités nationales de protection des données, rendue dans le cadre de sa taskforce dédiée à ChatGPT.

Les défis de l'IA générative en matière de données

Comme l'explique le Comité, si les grands modèles de langage (Large Language Models, LLM) peuvent offrir "d'importants avantages", ils soulèvent aussi de nombreuses problématiques en matière de protection des données personnelles. En effet, pour fonctionner, leur principe même est d'extraire des données issues de sites Internet pour former et enrichir le modèle. Parmi ces données, il y a inévitablement des données à caractère personnel dont le traitement doit donc respecter le RGPD.

C'est l'autorité italienne de protection des données (Garante per la protezione dei dati personali) qui fut la première à interroger OpenAI sur ses pratiques. Le 30 mars 2023, elle a interdit provisoirement ChatGPT sur le territoire national mettant en avant plusieurs violations du RGPD, parmi lesquelles l'absence d'information aux personnes sur la manière avec laquelle leurs données personnelles sont traitées, l'absence de base juridique ainsi que le non-respect du principe d'exactitude des données. Le 28 avril 2023, le chatbot de l'entreprise américaine a finalement été réautorisé en réponse à "des pas en avant accomplis pour conjuguer le progrès technique avec le respect des droits des personnes". En pratique, OpenAI a modifié certaines lignes de sa politique de confidentialité pour y intégrer des informations sur la manière dont il collecte et utilise les données pour entraîner son LLM.

L'Italie n'est pas encore satisfaite

Nouveau retournement de situation : le 29 janvier 2024, la Garante décide finalement que plusieurs dispositions du RGPD ne sont toujours pas respectées par OpenAI, donnant 30 jours à l'entreprise pour présenter ses contre-arguments. Quelques mois plus tard, en avril 2024, c'est l'association Noyb spécialisée dans la protection de la vie privée qui a saisi l'autorité autrichienne de protection des données. Elle reproche à OpenAI de violer les articles 5 (principe d'exactitude des données), l'article 15 (droit de rectification) et l'article 16 (droit de rectification) du RGPD. "Si un système ne peut pas produire des résultats précis et transparents, il ne peut pas être utilisé pour générer des données sur les personnes. La technologie doit suivre les exigences légales, et non l'inverse", revendiquait Maartje de Graaf, avocate spécialisée dans la protection des données au sein de l'association.

Entre temps, la Commission nationale de l'informatique et des libertés (Cnil) a reçu deux plaintes contre ChatGPT en avril 2023. La première est portée par Zoé Vilain, avocate et présidente de l'association Janus International, et la seconde par David Libeau, ingénieur d'études à la direction des plateformes en ligne de l''Autorité de régulation de la communication audiovisuelle et numérique (Arcom).

Des avis préliminaires pour les enquêtes en cours

Pour "encourager la coopération et l'échange d'informations sur les éventuelles mesures répressives", le Comité européen de protection des données a donc décidé de lancer une taskforce. Il convient de préciser, et c'est un point important, que le rapport ne se réfère qu'aux "informations publiques disponibles (...) compte tenu de la nature confidentielle des enquêtes". Par ailleurs, compte tenu des enquêtes en cours devant les autorités nationales, "les considérations contenues dans le présent rapport doivent être considérées comme des avis préliminaires".

Dans un premier temps, le rapport se penche sur les pratiques de "web scraping" d'OpenAI, soit le fait d'extraire des données du contenu de sites internet. Pour justifier la légalité de cette collecte, l'entreprise invoque l'article 6 paragraphe 1 f) du RGPD qui est l'intérêt légitime. La possibilité de recourir à ce dernier repose sur le respect de plusieurs critères : existence d'un intérêt légitime, la nécessité du traitement et la mise en balance des intérêts.

Exclure les données issues des réseaux sociaux

"Les garanties appropriées jouent un rôle particulier dans la réduction de l'impact excessif sur les personnes concernées et peuvent donc modifier le critère de mise en balance en faveur de la personne concernée", précise le Comité dans son rapport. Ces garanties pourraient prendre la forme de "mesures techniques" qui définissent "des critères de collecte précis" et garantissant que "certaines catégories de données ne sont pas collectées ou que certaines sources", comme les réseaux sociaux, sont exclues de la collecte de données. De plus, des mesures devraient être mises en place pour "supprimer" ou "anonymiser" les données personnelles qui ont été collectées par le biais du "web scraping" avant "la phase de formation".

Sur les données sensibles (article 9 RGPD), le rapport rappelle également le simple fait que des données personnelles soient accessibles au public n'implique pas que "la personne a manifestement rendu ces données publiques". En effet, il importe de vérifier si la personne concernée avait l'intention de rendre ses données publiques "par une action positive claire". En pratique, le Comité propose ainsi la mise en place d'une procédure de filtre qui devrait s'appliquer à la fois lors de la collecte de données et immédiatement après cette collecte en supprimant les données. Si l'ensemble de ces mesures sont prises, le CEPD estime que le chatbot peut respecter le RGPD.

OpenAI est pleinement responsable des données de son modèle

Par ailleurs, le Comité prohibe les transferts de responsabilité vers les utilisateurs du service. "La responsabilité du respect du RGPD ne doit pas être transférée aux personnes concernées, par exemple en insérant dans les conditions générales une clause selon laquelle [elles] sont responsables de données du chatbot", écrit-il. Il rappelle également que si des données personnelles partagées par des utilisateurs sont partagées par la suite à d'autres utilisateurs "OpenAI reste responsable du respect du RGPD et ne devrait pas soutenir que la saisie de certaines données personnelles était interdite".

Axe central du rapport : le respect du principe d'exactitude des données. En vertu du l'article 5 du RGPD, les données personnelles doivent être exactes "et, si nécessaire, tenues à jour; toutes les mesures raisonnables doivent être prises pour que les données à caractère personnel qui sont inexactes, eu égard aux finalités pour lesquelles elles sont traitées, soient effacées ou rectifiées sans tarder". Sur ce point, "en raison de la nature probabiliste du système", ChatGPT peut produire "des résultats biaisés ou inventés", c'est ce que l'on appelle des hallucinations.

Le principe d'exactitude des données n'est pas (encore) respecté

Or, le principe de transparence commande que le responsable de traitement fournisse "des informations appropriées sur les mécanismes de création des résultats probabilistes et sur le niveau de fiabilité limité (...)". Ce que ne fait pas encore suffisamment OpenAI : "bien que les mesures prises pour respecter le principe de transparence soient utiles pour éviter une mauvaise interprétation des résultats de ChatGPT, elles ne sont pas suffisantes pour respecter le principe d'exactitude des données". Conséquence de quoi, le traitement de données personnelles issu de ChatGPT ne respecte pas en l'état le RGPD.

Le même argument a été soulevé par Noyb devant l'autorité autrichienne. "Inventer de fausses informations est déjà problématique en soi. Mais lorsqu'il s'agit de fausses informations sur des personnes, les conséquences peuvent être graves. Il est clair que les entreprises sont actuellement incapables de faire en sorte que les chatbots tels que ChatGPT soient conformes à la législation de l'UE lorsqu'ils traitent des données concernant des personnes", rétorquait l'avocate de l'association de Max Schrems.

Il reste à savoir comment les différentes autorités interpréteront le RGPD et si elles réussiront à s'entendre sur une version commune.

Côté français, la Cnil a décidé d'accompagner les acteurs développant des systèmes d'intelligence artificielle pour leur conformité au RGPD. Après avoir publié un "plan IA" en mai 2023, elle a publié une série de fiches en avril dernier. En revanche, elle y aborde encore peu l'IA générative.