Trois recommandations pour développer un LLM respectueux de la confidentialité des données

Rédigé par l'experte Isabel Barbera, l'EDPB vient de publier un rapport sur le respect de la confidentialité dans les LLM. L'Usine Digitale vous propose un résumé des apports de ce document sous la forme de trois recommandations à suivre.

Alice Vitard

Publié le 11 avril 2025 à 15h35

Le maître mot : le privacy "by design". Voilà comment pourrait se résumer le rapport publié le 10 avril 2025 par European Data Protection Board (EDPB), organe chargé de veiller à l'application cohérente du Règlement général sur la protection des données (RGPD) dans les Etats, sur "les risques et atténuations liés à la confidentialité de l'IA : les Large Language Models".

Le document a été rédigé par Isabel Barbera, une experte externe à l'EDPB, dans le cadre du programme de soutien d'experts à la demande de l'Autorité croate de protection de données.

Une méthodologie de gestion des risques

S'adressant aux développeurs, utilisateurs et décideurs publics, le rapport propose une méthodologie de gestion des risques pour "les systèmes LLM". Premier point important, l'autrice ne parle pas de LLM mais de système LLM estimant que bien que "les LLM soient des composants essentiels des systèmes d'IA, ils ne constituent pas des systèmes d'IA à eux seuls". Ainsi, "pour qu'un LLM fasse partie d'un système d'IA, des composants supplémentaires, comme une interface utilisateur, doivent être intégrés pour lui permettre de fonctionner comme un système complet".

Les grands modèles de langage sont "une avancée majeure en matière d'intelligence artificielle" grâce à leur capacité à comprendre et à générer du langage humain, automatisant des tâches complexes et offrant des applications dans divers secteurs, allant du service client, des ressources humaines en passant par la santé. Dans le même temps, ces modèles nécessitent un volume de données massifs lors de leur entraînement mais aussi en phase de fine-tuning (spécialisation du modèle dans un secteur donné). Ce qui pose des questions en matière de protection des données personnelles.

Les recommandations de l'experte peuvent être résumées en trois points : l'intégration du privacy "by design", la limitation des risques d'exfiltration de données et la mise en place d'un audit continu.

1- L'importance du privacy "by design" (article 25 du RGPD)

L'objectif est d'anticiper les problématiques liées à la protection des données, plutôt que de devoir les corriger a posteriori. Le principe est le suivant : dès la phase de conception du système, il convient d'intégrer la confidentialité en limitant la collecte de données personnelles et en anonymisant les jeux de données, ou en utilisant des données synthétiques.

Dans la même idée, l'experte recommande d'utiliser des techniques pour détecter automatiquement des informations sensibles dans les corpus, la segmentation des données ou encore la suppression différentielle (effacement de données précises sans altérer les connaissances).

Le rapport préconise, par ailleurs, de mettre en oeuvre des mesures organisationnelles et techniques dès la phase de conception du modèle. Parmi ces mesures, est à éviter le recours à un cloud qui ne serait pas en capacité de garantir le traitement des données au sein de l'Union européenne. Si les données sont stockées par un hébergeur non européen, il faudrait vérifier l'existence d'une décision d'adéquation ou conclure des clauses contractuelles types.

2- Limiter les risques d'exfiltration des données

Cette recommandation vise à s'assurer que le modèle ne révèle pas de données personnelles lors de son utilisation. En effet, le document indique que même les LLM bien entraînés peuvent mémoriser des séquences contenant des données personnelles.

Il est ainsi recommandé d'intégrer des filtres de sortie (output filtering) pour reformuler ou bloquer automatiquement les réponses problématiques, avant qu'elles ne soient présentées à l'utilisateur final. La méthode du "Red teaming" est également préconisée. Cela consiste à simuler des attaques ou des réponses problématiques pour tester la robustesse du modèle.

3- Mettre en place une surveillance continue

L'objectif de cette recommandation est de s'assurer que les mesures de protection sont appliquées dans la durée. Le document recommande des mises à jour programmées de l'évaluation d'impact, prévue par le RGPD, et des politiques de traitement des données. Egalement, il est préconisé de mettre en place des mécanismes de monitoring sur les logs, les prompts utilisateurs ainsi que les outputs.

Le retour d'expérience des utilisateurs peut également permettre de s'assurer que le modèle n'expose pas de données personnelles, indique le document. La formation des équipes métier et technique à la gouvernance des LLM est aussi indispensable, peut-on également lire.

En France, la Commission nationale de l'informatique et des libertés (Cnil) avait publié des recommandations en avril 2024 pour développer un système d'apprentissage automatique respectant le RGPD, sous la forme de sept fiches.

Trois recommandations pour développer un LLM respectueux de la confidentialité des données

Une méthodologie de gestion des risques

À lire aussi