Comment savoir si un modèle d'IA est soumis au RGPD ? La Cnil répond

La Cnil continue ses efforts de pédagogie pour accompagner les entreprises à allier développement de modèles d'IA et respect du RGPD. L'analyse repose essentiellement sur la capacité potentielle du modèle à permettre la réidentification d'individus. 

RGPD Logo
RGPD Logo

Dans une nouvelle série de fiches dédiée à l'intelligence artificielle, la Commission nationale de l'informatique et des libertés apporte des éléments de réponse à la question suivante : comment savoir si un modèle d'IA doit respecter les obligations du Règlement général sur la protection des données (RGPD) ?

La question peut être reformulée de la sorte : le modèle en question a-t-il mémorisé ou conservé des données personnelles issues de son corpus d'entraînement ? Si la réponse est oui, le RGPD s'applique. A contrario, il peut être considéré comme anonyme, auquel cas le règlement européen ne s'applique pas. 

Conduire des tests d'attaque en réidentification

Il revient au fournisseur du modèle de "conduire et de documenter son analyse" qui devra comporter les résultats de la conduite de tests d'attaque en réidentification sur le système. Les niveaux de tests et de résistance aux attaques requis peuvent varier en fonction de ce contexte.

Si l'analyse conclut qu'il existe un risque significatif de réidentification, alors il est considéré comme un traitement de données personnelles. Le responsable du traitement doit alors respecter les obligations du RGPD, telles que l'existence d'une base légale, la mise en oeuvre de mécanismes permettant l'exercice des droits, la sécurité des données...

Dans le détail, le responsable du traitement doit tout d'abord caractériser "des moyens raisonnablement susceptibles d'être mis en oeuvre" pour extraire les données d'un modèle d'IA. Il doit s'appuyer sur les moyens supplémentaires qui permettraient une réidentification et qui seraient accessibles à la personne ; le coût et le temps nécessaires à une telle personne pour obtenir des informations supplémentaires ; l'état de l'art technologique disponible et en développement, notamment concernant les techniques d'extraction de données à partir de modèles d'IA. La Cnil précise que la simple restriction d'accès aux données et/ou au modèle ne garantit pas de manière systématique leur anonymat. 

La possibilité de rendre "insignifiant" la réidentification des personnes

Dans le cas où un modèle d'IA est soumis au RGPD, la Commission explique qu'il est possible de mettre en place des mesures "suffisamment efficaces et robustes" pour rendre "insignifiant la vraisemblance de réidentification de personnes". Parmi les mesures, elle cite l'impossibilité d'accès direct ou de récupération du modèle à partir d'interactions avec le système, les modifications apportées aux sorties du modèle (limiter la précision des sorties du modèle et filtrer les sorties du modèle), ou encore la mise en place de mesures de sécurité visant à empêcher ou à détecter des tentatives d'attaques, comme le chiffrement de modèle. 

De manière générale, l'autorité française recommande aux fournisseurs de veiller régulièrement à la validité de leur analyse, en prenant en compte l'évolution de l'état de l'art, ainsi que d'anticiper les éventuelles violations de données susceptibles de survenir. Dans ce cadre, elle préconise par exemple la mise en place d'un système de remontée d'informations par les utilisateurs en cas d'incident. 

Documenter toute fuite de données

Dans le cas où une extraction de données personnelles a eu lieu, l'entité doit empêcher toute exploitation de la vulnérabilité. Lorsque cela est possible, elle doit examiner si la vulnérabilité de réidentification a été exploitée et par qui. A noter que le fait que l'extraction de données personnelles soit qualifiée de violation de données ne révèlera pas nécessairement une faute engageant la responsabilité du fournisseur du modèle. 

En fonction de la gravité, la Commission prévient qu'en fonction de la gravité de l'incident elle pourra exiger la ré-entraînement ou la suppression du modèle en cause. 

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.