RGPD : La pseudonymisation, solution miracle pour exploiter les données personnelles ?

Avec le recours accru à l'intelligence artificielle dans presque tous les secteurs économiques, l'exploitation des données personnelles constitue aujourd'hui un défi à relever. La pseudonymisation des données semble être une solution assez équilibrée entre protection et exploitation. Or, les textes comme la jurisprudence restent encore flous sur ce sujet. Pour comprendre ces enjeux, le Club Data Protection de L'Usine Digitale s'est entretenu avec le juriste Théodore Christakis.

Alice Vitard

Publié le 21 octobre 2024 à 16h25

"La grande question qui se pose est de savoir comment libérer le plein potentiel des données", résume Theodore Christakis, professeur de droit et titulaire de la chaire Legal and Regulatory Implications of Artificial Intelligence au sein de l'Université Grenoble Alpes, à propos de l'étude sur la pseudonymisation des données, commandée par le cabinet d'avocats Samman.

Les privacy-enhancing technologies

A l'ère de l'intelligence artificielle, il est devenu indispensable de recourir aux données qualifiées de personnelles au sens du Règlement général sur la protection des données (RGDP) pour entraîner des modèles. La pseudonymisation des données, en tant que "privacy-enhancing technologies" (PET) au même titre que les données synthétiques, serait "une solution pragmatique" pour libérer le potentiel des données tout en assurant une protection suffisante, plaide le juriste.

Les termes du débat sont les suivants : le RGPD ne comporte pas d'obligation générale d'anonymisation des données. Il s'agit d'une solution, parmi d'autres, pour exploiter les données personnelles. Comme le rappelle la Commission nationale de l'informatique et des libertés (Cnil), l'anonymisation ouvre "des potentiels de réutilisation" initialement interdits du fait du caractère personnel des informations. En effet, étant donné que les personnes ne peuvent pas être réidentifiées, le RGPD ne s'applique plus.

A l'inverse, de son côté, la pseudonymisation ne permet pas une irréversibilité de l'identification de la personne. Elle consiste à remplacer les données directement identifiantes (nom, prénom...) par des données indirectement identifiantes (numéro séquentiel, alias...). Il est possible de retrouver l'identité des personnes dont les données ont été pseudonymisées. C'est pour cette raison que l'autorité française estime que les obligations du RGPD s'appliquent toujours aux données pseudonymisées ; position justifiée par "un risque de réidentification". On parle d'approche absolue.

"La jurisprudence se cherche un peu"

A contrario, la Data Protection Commission (DPC), l'autorité irlandaise de protection des données, a une approche relative. Elle considère "le statut des données en fonction de la capacité réelle de réidentification par une partie spécifique", explique Théodore Christakis. "La jurisprudence se cherche un peu", résume-t-il.

Or, les enjeux économiques sont importants puisqu'avec l'essor de l'intelligence artificielle, il est indispensable pour les entreprises comme les acteurs publics de pouvoir exploiter des jeux de données, même si celles-ci sont qualifiées de personnelles. Or, en étant anonymisées, les données ne plus - le plus souvent - plus exploitables.

D'où l'idée du professeur d'aller au-delà de l'approche binaire - relative ou absolue - et de faire du cas par cas. "On ne peut pas se passer de la distinction entre pseudonymisation et anonymisation, détaille-t-il. Mais, on voit certaines autorités de protection des données qui ont une approche intéressante : une approche dite par les risques. Pour chaque cas, on se demande s'il y a eu une pseudonymisation robuste, la mise en place ou non d'autres systèmes de protection... Dans le but de déterminer s'il existe de très forts risques de réidentification ou non."

La pseudonymisation, principal cardinal du RGPD

Plusieurs points plaident pour cette approche. L'expert note, tout d'abord, que le RGPD lui-même fait une place de choix à la pseudonymisation. "Le RGPD inclut pas moins de 15 références à la pseudonymisation ! (...) [Il] mentionne la pseudonymisation comme un exemple de mesure de protection des données appropriée dans de nombreuses circonstances", note Théodore Christakis. Ainsi, cette technique est citée pour réduire le risque qu'un traitement présente pour les droits des personnes, pour aider le responsable de traitement à adopter une approche "Privacy by design" ou encore pour atténuer les conséquences d'une violation de données.

Le juriste mentionne également des textes européens qui reconnaissent "la grande utilité de la pseudonymisation", telle que le Data Governance Act (DGA) et le Data Act. Par ailleurs, il cite l'ENISA, l'agence de l'Union européenne pour la cybersécurité, qui considère que la pseudonymisation comme "une mesure de sécurité cruciale pour la protection des données personnelles". Elle souligne, en effet, qu'elle permet de traiter les donner tout en offrant de "solides garanties pour la vie privée, notamment dans des secteurs sensibles comme la santé". Concernant la santé, l'étude revient sur l'affaire du Health Data Hub - cette immense base qui rassemble les données de santé des Français - dont la légalité de l'hébergement par Microsoft Azure avait été contestée devant le Conseil d'Etat.

A cette occasion, la juridiction administrative avait déclaré que "la pseudonymisation, qui réduit le risque d'identification des personnes concernées, par la suppression des informations directement identifiantes, contribue à garantir le droit au respect de la vie privée. Contrairement à ce que soutiennent les requérants, le droit au respect de la vie privée n'implique pas que des données, même aussi sensibles que les données de santé, fassent dans tous les cas l'objet d'une anonymisation avant d'être traitées à des fins d'évaluation ou de recherche".

Limiter la recherche scientifique, freiner le développement de l'IA...

Pour le juriste, une approche très stricte pourrait entraîner "des conséquences indésirables" : limiter la recherche scientifique, freiner le développement de l'IA et de l'IA générative en Europe, constituer un obstacle majeur à la mise en place des espaces européens communs de données ainsi qu'entraver la circulation des données en renforçant les positions dominantes des acteurs disposant de grandes quantités de données. Il précise qu'il ne s'agit évidemment pas d'affaiblir la protection des données.

En pratique, il plaide pour "une collaboration accrue entre les régulateurs, les responsables du traitement et les autres acteurs concernés [qui] pourrait permettre de développer des lignes directrices claires et pragmatiques sur l'utilisation de la pseudonymisation, et la mise en place de codes de conduite, voire de 'bacs à sable' (sandbox) réglementaires". L'objectif étant de favoriser "une compréhension commune" et de faciliter "l'adoption de pratiques efficaces de protection des données fondées sur une approche par les risques".

RGPD : La pseudonymisation, solution miracle pour exploiter les données personnelles ?

Les privacy-enhancing technologies

"La jurisprudence se cherche un peu"

La pseudonymisation, principal cardinal du RGPD

Limiter la recherche scientifique, freiner le développement de l'IA...

À lire aussi