La Cnil présente ses recommandations pour développer une IA respectueuse des données personnelles

La Commission nationale de l'informatique et des libertés vient de publier sa première série de recommandations sur le développement "des systèmes d'intelligence artificielle", établies en partie grâce aux contributions reçues à la suite d'une consultation publique. Elles ont pour objectif d'aider les professionnels à concilier le respect des droits des personnes et l'innovation.

Alice Vitard

Publié le 9 avril 2024 à 15h05

La garante du respect du RGPD apporte sa contribution au développement de systèmes d'intelligence artificielle conformes à la législation sur la protection des données. La Commission nationale de l'informatique et des libertés (Cnil) a publié le 8 avril sa première série de recommandations - sous la forme de 7 fiches - qui s'inscrit dans son "plan IA" publié en mai 2023. Afin de garantir la confiance dans ses systèmes pour favoriser leur adoption, elle a entamé "un important travail de clarification du cadre juridique" afin de "sécuriser les acteurs".

Des recommandations élaborées collectivement

Ces recommandations ont été élaborées après une série de rencontres avec des acteurs publics et privés pour recueillir leurs interrogations sur le sujet ainsi qu'une consultation publique de deux mois. Durant cette période, 43 consultations ont été reçues issues de divers acteurs (29 organismes à but lucratif dans l'IA, la finance, l'aéronautique..., 7 organismes à but non lucratif, 4 particuliers et 3 établissements publics).

Il est important de préciser que ces recommandations ne sont pas contraignantes. Elles rappellent simplement les obligations posées par la réglementation et formulent des recommandations pour s'y conformer. La Cnil précise que certaines de ses recommandations vont même plus loin que le strict respect de la législation en vigueur.

Sur le champ d'application, l'autorité précise que ses recommandations s'appliquent au développement de systèmes qui mettent en oeuvre "des techniques d'intelligence artificielle" impliquant un traitement de données personnelles. Concernant la définition, elle se réfère à celle établie dans la dernière version de l'Artificial Intelligence (AI) Act. Sur la notion de développement, elle estime que cette phase s'étale de la conception du système jusqu'à son intégration en passant par la constitution d'une base de données à l'apprentissage.

Déterminer le régime juridique

La première étape est de déterminer le régime juridique applicable au système à développer. Il existe trois régimes juridiques potentiellement applicables : le Règlement général sur la protection des données personnelles, le régime spécifique aux secteurs "police-justice" (Titre III de la loi "informatique et libertés") et celui intéressant la défense nationale ou la sûreté de l'Etat régi par les dispositions de la loi "informatique et libertés".

Dans le cas où l’usage opérationnel du système d’IA en phase de déploiement est identifié dès le développement et si les traitements mis en œuvre en phase de développement poursuivent exclusivement la même finalité que ceux en phase de déploiement, il est possible de considérer qu’ils relèvent, généralement, du même régime juridique. Ce sera notamment le cas lorsque le choix du développement d’un système d’IA spécifique fait partie des moyens identifiés pour atteindre la finalité fixée pour le système à déployer.

Or, la phase de développement et la phase de déploiement du système d’IA peuvent être décorrélées. On considère en général dans cette hypothèse, sous réserve d’une analyse au cas par cas, que les traitements en phase de développement sont soumis au RGPD, indique la Cnil.

Déterminer la finalité du traitement

La deuxième étape est de déterminer une finalité du traitement qui désigne l'objectif poursuivi par l'utilisation des données personnelles. Il doit être établi dès le début du projet et explicite, c'est-à-dire connu et compréhensible, ainsi que légitime vis-à-vis des missions de l'organisme concerné, détaille la Cnil. Lorsqu'il s'agit d'une IA à usage général ou un modèle de fondation, il peut être difficile de définir une finalité suffisamment déterminée et explicite au stade du développement, ajoute-t-elle. Dans ce cas là, la finalité peut remplir les critères mentionnés ci-dessous à condition qu'elle se réfère cumulativement au "type" de système développé (système de vision par ordinateur, système d'IA générative...) ainsi qu'aux fonctionnalités et capacités techniques envisageables (dresser la liste des capacités que le responsable de traitement peut raisonnablement prévoir dès le début du projet).

Par ailleurs, les organismes constituant des bases de données d'apprentissage contenant des données personnelles doivent déterminer leur statut : responsable de traitement, responsable conjoint ou sous traitant.

Définir une base légale

La troisième étape est de définir une base légale afin de s'assurer que le traitement est licite. Plusieurs options sont prévues dans les textes, tel que le consentement des personnes concernées (il doit être libre, spécifique, éclairé et univoque). Le consentement doit être accompagné d’un certain nombre d’informations communiquées à la personne avant qu’elle ne consente afin de lui permettre de prendre des décisions en toute connaissance de cause et de savoir comment retirer son consentement. L'intérêt légitime, le contrat, la mission d'intérêt public et l'obligation légale peuvent également être choisis. La Commission rappelle par ailleurs les règles applicables en matière de traitement des données sensibles (article 9 du RGPD).

En cas de réutilisation de données, le responsable du traitement est tenu d’effectuer certaines vérifications supplémentaires afin de garantir que le traitement de données est autorisé par la loi. Si le fournisseur réutilise les données qu'il a lui-même collecté initialement pour une autre finalité, il doit déterminer si ce traitement ultérieur est compatible avec la finalité pour laquelle les données ont été initialement collectées.

Dans le cas où le fournisseur réutilise une base de données publiquement accessible, le responsable du traitement qui réutilise les données doit s’assurer qu’il n’est pas en train de réutiliser une base de données dont la constitution était manifestement illicite. La Cnil recommande aux réutilisateurs de vérifier que la description de la base de données mentionne leur source. Elle précise qu'une fiche cas d'usage sur la réutilisation des données personnelles sera publiée ultérieurement.

Faut-il faire une analyse d'impact ?

Dans ses recommandations, la Commission rappelle également les règles applicables en matière d'analyse impact sur la protection des données (AIPD). Cette dernière est obligatoire si le traitement envisagé est susceptible d'engendrer un risque élevé pour les droits et libertés des personnes physiques. Dans les autres cas, il convient tout de même de s'interroger sur l’existence de risques pour les personnes du fait de la constitution d’une base d’entraînement et de son utilisation : si des risques importants existent, notamment du fait d’un mésusage des données, d’une violation de données, ou lorsque le traitement peut donner lieu à une discrimination.

La Commission émet également des recommandations plus générales sur la réflexion à mener lors de la conception du système. Celle-ci comporte quatre étapes : le responsable du traitement doit s'interroger sur l'objectif du système qu'il souhaite développer, la méthode employée (qui aura une incidence sur les caractéristiques de la base de données), les sources de données mobilisées ainsi que la validé des choix. Cette dernière étape peut passer par une étude pilote ou l'avis d'un comité d'éthique.

Dans les prochains mois, la Commission proposera ses recommandations sur la seconde étape : le déploiement des systèmes d'intelligence artificielle. Elles seront également soumises à consultation publique.