La Cnil et le Défenseur des droits alertent sur les biais des algorithmes

Face à l'utilisation accrue des algorithmes dans tous les secteurs, le Défenseur des droits et la Cnil publient un rapport sur les biais discriminatoires pour éclairer les pouvoirs publics. Ils recommandent de mieux former et de sensibiliser les professionnels du secteur, de réaliser des études d'impact pour anticiper les effets discriminatoires et de renforcer les obligations légales de transparence et d'explicabilité des algorithmes.

Alice Vitard

Publié le 2 juin 2020 à 11h45

La Commission nationale de l'informatique et des libertés (Cnil) et le Défenseur des droits – une autorité administrative chargée de promouvoir l'égalité – ont publié le 31 mai 2020 un rapport sur les biais algorithmiques. "Ce sujet est longtemps resté un angle mort du débat public. Il ne doit plus l'être", écrivent les deux autorités françaises qui appellent à une prise de conscience collective et demandent aux pouvoirs publics de prendre des mesures.

Des risques considérables de discrimination

Le 28 et 29 mai, des spécialistes, des chercheurs, des juristes et des développeurs se sont réunis autour des enjeux de transparence des algorithmes et des biais discriminatoires. Ils ont tous pointé "les risques considérables de discrimination que leur usage exponentiel peut faire peser sur chacun et chacune d'entre nous". A ce sujet, la Cnil et le Défenseur des droits rappellent que de plus en plus d'acteurs du secteur privé et public ont recours à des algorithmes dans des domaines très divers comme l'accès aux services publics, dans les procédures d'embauche, la justice…

Le rapport note qu'à première vue, les algorithmes permettent de trier, classer ou d’ordonner des informations en se débarrassant des préjugés et biais propres aux affects des humains. Or, "il n’y a ni magie technologique ni neutralité mathématique : les algorithmes sont conçus par des humains et à partir de données reflétant des pratiques humaines". En effet, les biais peuvent être intégrés à toutes les étapes de "l'élaboration et du déploiement du système". Certains biais peuvent provenir de l'intégration intentionnelle d'un critère de discrimination interdit dans un algorithme comme le sexe ou l'origine. Mais le rapport indique que dans la majorité des cas il s'agit de "mécanismes moins visibles". En fait, ce sont les données utilisées pour entraîner le réseau de neurones qui sont elles-mêmes biaisées.

Le manque de représentativité des données

L'un des biais les plus fréquents est le manque de représentativité des données mobilisées. Le rapport cite une étude menée par le Massachusetts Institute of Technology (MIT) en 2018 qui a permis d'expliquer pourquoi certains systèmes de reconnaissance faciale rencontraient de plus grandes difficultés à identifier les femmes, les personnes non blanches et davantage les femmes de couleurs. La raison était que le stock de données sur lesquelles le modèle s'appuyait était marqué par une très forte prédominance des visages masculins et blanc.

De plus, les données peuvent être biaisées lorsqu'elles sont "la traduction mathématiques de pratiques et comportements passés souvent discriminatoires et des discriminations systémiques opérant au sein de la société". Dans les données d’emploi disponibles, les femmes sont moins représentées et tendent à occuper certaines filières de métiers et des postes et rémunérations moindres. Sur la base de telles données, un algorithme pourrait déduire que les femmes ne sont pas aussi productives que les hommes et n’accèdent pas autant à des postes à responsabilité. En conséquence, un algorithme utilisé pour le recrutement utilisant des données biaisées reproduira ces biais, voir les accentuera.

Par ailleurs, la mobilisation de critères neutres en apparence c’est-à-dire ne relevant pas des motifs prohibés de discriminations, peut également avoir des effets discriminatoires. Le plus souvent, c’est la combinaison de plusieurs de ces critères qui peut emporter ces effets discriminatoires. Les critères et données en question peuvent même sembler "très lointains des motifs prohibés mais leur corrélation permet des résultats similaires à ceux qu’on aurait obtenu en utilisant directement la caractéristique protégée".

Une série de recommandations

Face à ces problématiques, la Cnil et le Défenseur des droits livrent une série de recommandation espérant que les pouvoirs publics en prendront note rapidement. Premièrement, il conviendrait de mieux former et sensibiliser les professionnels. "Il existe un fort enjeu d’acculturation et de formation, les métiers de l'informatique et de l'analyse des données dont le manque de diversité ne cesse d’être pointé", indique le rapport. De plus, les pouvoirs publics doivent davantage soutenir la recherche pour développer les études de mesure et les méthodologies de prévention des biais. Dans la même lignée, le rapport préconise également d'approfondir la notion de "fair learning" c'est-à-dire la conception d'algorithmes répondant à "des objectifs d’égalité et d’explicabilité et pas seulement de performance".

La Cnil et le Défenseur des droits demandent aux pouvoirs publics de renforcer les obligations en matière d'information, de transparence et d'explicabilité des algorithmes. Le Règlement général sur la protection des données (RGPD) impose déjà certains impératifs à l'instar de son article 13 qui prescrit une obligation d'information sur "la logique sous-jacente" de toute décision automatique entraînant un effet important sur la personne. Mais pour lutter contre les biais, il faut aller plus loin sur "les exigences légales" note le rapport.

Tout d’abord, l'ensemble de ces obligations ne devraient pas rester limitées aux seuls algorithmes décisionnaires et à ceux opérant des traitements de données personnelles. De plus, elles devraient concerner les algorithmes du secteur privé comme ceux du secteur public. Par ailleurs, Il faudrait prévoir que les tiers, et non les seuls destinataires des décisions individuelles, puissent accéder aux critères utilisés par l’algorithme pour les mettre en capacité de repérer d’éventuels biais. Enfin, les informations générales publiées relatives aux traitements algorithmiques d’une part, et les explications individuelles sur une décision donnée d’autre part, doivent être fournies au public et aux usagers dans "un langage accessible et intelligible".

Réaliser des études d'impact

Le rapport conclut en rappelant la nécessité de réaliser des études d'impact pour anticiper les effets discriminatoires des algorithmes. "La question du contrôle des effets des systèmes doit donc être résolue dès la phase d’élaboration des algorithmes ou dans le cadre de leur apprentissage", préconisent les autorités. Souvent précurseur sur ce sujet, le Canada a rendu obligatoire depuis le 1er avril 2020 les audits qui incluent les enjeux de discriminations pour les institutions publiques et le Gouvernement fédéral a mis en place une plateforme, l’IEA (Évaluation de l’incidence algorithmique) pour accompagner les administrations dans ces analyses d’impact.