"L'IA générative soulève des questions nouvelles et difficiles", Laurie Richardson, VP Trust & Safety, Google

L'Usine Digitale : Pourquoi intervenez-vous à Paris au sujet du développement responsable de l’IA ?

Laurie Richardson : Nous voulons partager nos enseignements sur les pratiques qui fonctionnent. Nous avons élaboré un "cycle de vie de la responsabilité de l’IA" qui se découpe en quatre parties : recherche, conception, gouvernance, partage. C’est un cycle sans fin, car aucun de ces outils ou techniques ne sera jamais parfait. Quand une nouvelle modalité ou capacité arrive, il faut la considérer avec un regard neuf.

Et nous ne travaillons pas seuls évidemment, nous collaborons avec des organisations comme AI Commons et le Frontier Model Forum pour partager nos enseignements et apprendre de ceux des autres. Je pense que personne ne veut utiliser la sécurité comme un facteur de compétition. Tous les grands acteurs du secteur veulent s’assurer que ces produits sont créés de façon réfléchie.

Tout le monde s’accorde sur la nécessité de créer des modèles d’IA de façon responsable, mais la définition semble varier d’une entreprise à l’autre. Certains évoquent une menace existentielle pour l’humanité, d’autres des dangers plus concrets sur les biais ou la discrimination. Quelle est votre position ?

Je pense en effet qu’il y a environ un an, il n’y avait que ces deux camps et qu’ils se tiraient des coups de semonce. Il y avait le camp des risques existentiels et celui du "ici et maintenant" avec les dangers autour des biais et les risques traditionnels des contenus classiques. Néanmoins des liens ont commencé à se créer entre ces camps.

De notre côté, nous n’avons jamais été dans une posture de "soit l’un, soit l’autre". Nous prenons tous types de risques au sérieux. Mais concrètement, l’équipe Confiance et Sécurité se concentre sur l’interaction des produits avec les utilisateurs, développeurs et entreprises clientes, et sur les risques réels à court terme.

Nous vivons un moment fascinant où n’importe quelle capture d’écran d’une réponse – qui parfois ne peut pas être reproduite – peut devenir une actualité en tant que telle et créer un cycle médiatique car les gens surveillent minutieusement cette technologie. Surveillance qui est la bienvenue et qui est appropriée.

Ces services sont nouveaux, ils sont déployés à grande échelle, de nombreuses entreprises sont en compétition… Il est sain d’avoir ce débat. Cependant il est également important de se rappeler là où les utilisateurs peuvent subir des dommages réels : incitations à la haine, contenus sexuels non consentis, dommages dans le monde réel, dangers pour les enfants…

Quelle est votre méthodologie au sein de Google pour sécuriser les produits utilisant de l’IA générative ?

L’IA générative soulève des questions nouvelles et difficiles. Nous pouvons nous appuyer sur le travail effectué ces vingt dernières années au sein de Google, mais il nous faut aussi renforcer nos capacités de tests et de red teaming [attaque des produits par des équipes dédiées pour en trouver les faiblesses, ndlr], notre gouvernance, etc.

Nous nous assurons que son déploiement au sein des produits de Google se fasse en maximisant les bénéfices et en minimisant les risques. Notre travail dépend aussi de la nature du produit : pour Google Search, une information digne de confiance et qui fait autorité, pour YouTube, le divertissement, pour le Play Store, un espace d’hébergement pour les développeurs…

Il n’y a pas d’approche unique qui fonctionne pour tout. Notre travail et les politiques de "safety by design" que nous mettons en place, jusqu’à la manière dont nous testons leur efficacité, tout varie d’un produit à l’autre. Par exemple, alors que ces produits peuvent sembler similaires à l’existant – les gens veulent les comparer aux réseaux sociaux ou aux plateformes de contenus générés par les utilisateurs – ils sont en fait assez différents. Vous interagissez avec le chatbot seul à seul, ce qui à tendance à limiter la viralité.

Y a-t-il des pièges à éviter pour la sécurisation des modèles d'IA ?

Je pense que l’un des points cruciaux pour développer des technologies d’intelligence artificielle de façon responsable c’est de ne pas voir tout en noir ou en blanc : soit je déploie, soit je ne déploie pas. Il faut réfléchir à comment on déploie ces technologies. Pour tout ce qui touche aux agents par exemple, nous procédons à de longues phases d’essais avant de les mettre à disposition des utilisateurs.

Et une fois que c’est fait, il faut être capable de faire évoluer rapidement le produit, car le public expérimente avec ces nouvelles technologies et rien ne peut remplacer des tests faits par 100 millions d’utilisateurs. Il faut aussi rassurer les utilisateurs sur la neutralité et la fiabilité de ces produits, car s’ils perdent confiance en eux, nous passerons à côté des cas d’usage les plus ambitieux, par exemple au niveau scientifique ou pour aider à prévenir les catastrophes naturelles.

Pouvez-vous me donner quelques exemples de votre impact et de la façon dont vous travaillez avec les ingénieurs et les équipes produit ?

Je dois d’abord vous dire que je n’ai jamais autant senti qu’on avait notre place et notre mot à dire dès le début du processus de développement. Nous sommes vraiment dans une approche de cocréation avec les équipes produits, pour déterminer quelle approche adopter et comment mitiger les risques.

Un exemple récent est le lancement de Gemini Live, un outil conversationnel qui génère de la voix. Les réponses sont les mêmes que celles purement textuelles de Gemini, et donc nos tests étaient déjà très bons car nous avions déjà fait beaucoup d’efforts pour s’assurer que nos politiques d’utilisation étaient les bonnes. Mais il fallait se demander ce que cela change que les réponses soient lues à voix haute. Quels nouveaux risques cela peut-il engendrer ? L’un d’entre eux est l’utilisation pour la fraude ou les tentatives d’arnaques, un autre est de donner des conseils médicaux qui pourraient être erronés.

Nous avons donc travaillé avec l’équipe produit pour s’assurer d’être attentif au risque de fraude, et dès qu’on s’approche du domaine médical, nous incluons un avertissement. Nous essayons aussi, au niveau de l’interface utilisateur, de vous amener vers des sources qui font autorité sur la question. C’est le genre d’innovation que nous intégrons dans la fenêtre de discussion de Gemini.

Quelle taille fait votre équipe et comment est-elle organisée ?

Nous ne communiquons pas de chiffres exacts, mais je dirais qu’elle comporte des milliers de personnes à travers l’entreprise, et des dizaines de milliers en incluant nos sous-traitants. Cela inclut mon équipe, des ingénieurs en sécurité qui travaillent sur chacun des produits et avec qui nous collaborons étroitement, et puis il y a des centres d’excellence pour une IA responsable qui se trouvent dans différentes divisions de l’entreprise, par exemple au sein de Google DeepMind. Ils font un travail formidable et nous travaillons avec eux sur la sécurité des modèles d’IA et des applications.

Etant donné les quantités de contenus générés à venir et la croissance attendue pour les produits à base d’IA générative, est-ce que votre équipe va pouvoir faire face à la demande ?

Ce qui est clair c’est que nous n’aurions jamais été capable d’opérer à une telle échelle sans systèmes d’intelligence artificielle pour nous épauler. Google Search, YouTube ou Google Ads, ce sont des milliers de milliards de tokens en permanence.

Je pense que l’équilibre entre ce qu’on peut automatiser et ce qui est fait par des êtres humains va changer d’une façon très saine. Les humains seront moins exposés aux contenus les plus problématiques et difficiles. Je prends cela très au sérieux, j’ai des membres de mon équipe qui doivent faire face à des contenus pédopornographiques et c’est quelque chose de très dur, qui laisse des traces. Ils sont très investis dans leur mission mais cela ne rend pas les choses plus aisées, et plus nous pourrons déléguer ces tâches aux machines avec de la reconnaissance de motifs, mieux ce sera.

Mais pour vous répondre, mon équipe s’agrandit. Nous travaillons à grande échelle de cette façon mais nous avons aussi besoin d’experts sur des sujets spécifiques. Je dirais que les compétences pour lesquelles nous recrutons sont l’esprit critique, l’excellence opérationnelle, être capable de s’attaquer à de nouveaux types de dangers, et être agile dans sa façon de penser et de travailler en général.

Tout tourne autour de cet équilibre entre l’agilité et le passage à l’échelle. L’une de mes collaboratrices donne cet exemple avec des pommes. Si je vous demande d’acheter une pomme, vous pouvez aller dans n’importe quel magasin et en acheter une, c’est à la portée de tout le monde. Si je vous demande d’en acheter 10, même chose. Mais si je vous en demande 100 000 ? Là il vous faudrait les sourcer, vérifier qu’elles ne soient pas endommagées, trouver comment les transporter, puis les stocker…

C’est ce que font les équipes Confiance et Sécurité, mais avec des contenus numériques. Nous vérifions des milliards et des milliards de contenus, mais en même temps il nous faut rester flexibles, être capable de nous adapter à de nouveaux problèmes ou en regarder d’anciens avec un regard neuf. C’est ce qui rend ce travail passionnant.

Est-ce que l’IA générative vous est utile dans votre propre travail ?

Oui. Un exemple de cas d’usage est la contrefaçon sur Google Shopping. Nous avons toujours utilisé une forme d’automatisation pour vérifier de grandes quantités de contenu, mais cela restait rudimentaire. Nous nous utilisions un système basé sur des mots-clés, mais il n’était pas aussi précis ni agile que nous le souhaitions. Il suffit de changer une lettre dans "Gucci" et vous passez entre les mailles du filet. Evidemment nous anticipons ce genre de chose, mais l’ingénuité humaine aura toujours un temps d’avance sur ce type de système basé sur des règles prédéfinies.

Les grands modèles de langage peuvent être utilisés pour générer des données synthétiques pour l’entraînement de nos algorithmes de classification et nous permettre d’anticiper un très grand nombre de variations de ce type, dans des langues et contextes différents, ce qui améliore grandement nos capacités de détection. Ils nous permettent aussi de faire de la reconnaissance de motifs pour déterminer quand les prix sont trop beaux pour être vrais.

Un autre exemple est la suppression de contenus telle que requis par la loi. Quand un gouvernement nous demande de supprimer certains contenus, nous étudions la requête pour nous assurer qu’ils ne contiennent pas d’informations d'intérêt public, auquel cas nous négocions et dans certains cas refusons de retirer ces contenus. Nous recevons par exemple de nombreuses demandes de la part du gouvernement russe et toutes ne sont pas valides.

Avant les LLMs, nous examinions chaque URL manuellement à l’aide d’un test multifactoriel pour déterminer si elle contenait des information d’intérêt public ou pas. Désormais, comme ils peuvent détecter certains motifs avec beaucoup plus de nuance, nous avons pu automatiser ces tâches en grande partie. Il y a toujours des êtres humains qui prennent la décision à la fin, mais ces outils permettent de traiter les demandes beaucoup plus rapidement, ce qui est aussi important pour nous car le DSA nous impose de répondre aux demandes gouvernementales dans un temps limité.

Vous évoquiez les contenus pédopornographiques tout à l’heure, cela peut aider vos équipes à mieux lutter contre ?

Les contenus pédopornographiques sont un domaine dans lequel nous utilisons l’automatisation depuis longtemps. Il y a les contenus connus, que nous détectons à l’aide de signatures et pour lesquels nous travaillons avec l’ICMEC, et les contenus inconnus, pour lesquels nous faisons de la reconnaissance de motifs à l’aide d’algorithmes de vision par ordinateur. Ce n’est pas parfait mais ça fonctionne plutôt bien.

Là où les grands modèles de langage peuvent avoir leur intérêt c’est pour des domaines beaucoup plus nuancés et difficiles à identifier, comme le grooming [mise en confiance progressive d’un mineur dans le but d’amener à des actes sexuels, ndlr], que les systèmes traditionnels n’arrivent pas à détecter.

Google a récemment rejoint la Coalition for Content Provenance and Authenticity, ou C2PA, pouvez-vous revenir sur les raisons de ce choix et sur pourquoi vous le faites maintenant ?

Je suis très enthousiaste à propos de la C2PA car cela a pris du temps. Nous avons vraiment étudié l’intérêt du standard avant de rejoindre la coalition, car nous voulions nous assurer que cela serait réellement utile. Nous avons envoyé une équipe d’ingénieurs pour déterminer s’il serait interopérable, aussi difficile que possible à falsifier, respectueux de la vie privée et s’il était probable qu’il soit largement adopté par le secteur. Il répond à nos critères et c’est pourquoi nous avons rejoint le groupe. Les équipes YouTube notamment avaient hâte de rejoindre le groupe car cela va les aider à comprendre quand du contenu provient d’autres plateformes. Même chose pour Google Photos dans les smartphones Pixel.

Cependant il faut comprendre que le C2PA n’est pas suffisant en tant que tel. Il ne résoudra pas tous les problèmes liés à la provenance des contenus en ligne, à la confiance et aux deepfakes. Google a d’ailleurs aussi SynthID, une technologie de watermark développée par DeepMind et qui est intégrée dans tous les produits utilisant Gemini. Nous explorons toutes les voies possibles : watermarking, hashing, logging, labelling, metadata… Et nous sommes prêts à nous adapter, à travailler par itération pour trouver ce dont les utilisateurs ont vraiment besoin.

Quand verra-t-on un déploiement plus large de ces fonctionnalités ?

Nous y travaillons ardemment dans plusieurs domaines et vous verrez plusieurs des degrés d’adoption qui seront significatifs dans un futur proche.

Il y a un vrai enjeu car l'une des grandes inquiétudes concernant l’IA générative est son utilisation par des groupes mal intentionnés. Vous avez mentionné la Russie tout à l’heure, et il y a par exemple des risques en matière de propagande et désinformation, notamment pour les élections politiques. Comment percevez-vous ce risque à court ou moyen terme ?

2024 est l’une des années les plus importantes de l’histoire en matière d’élections à travers le monde, on ne verra pas une autre année avec autant d’élections dans différents pays avant 40 ou 50 ans. Et donc on a vu ces nouvelles capacités technologiques arriver juste avant cette année charnière, et jusqu’à présent les systèmes en place ont tenu le coup, ce qui n’était pas garanti.

Pourquoi il n’y a pas eu d’apocalypse ? Certains prédisaient que personne ne saurait plus distinguer le vrai du faux. Je pense que nous devons garder à l’esprit que jusqu’à présent, les gens expérimentent avec ces technologies, mais leur distribution reste encore limitée car les garde-fous existants des grandes plateformes ont tenu bon. Cela nous a permis d’avoir une année plus calme et stable, même si la perception du danger potentiel de l’IA peut être un élément déstabilisateur en tant que tel.

Mais nous prenons cette menace très au sérieux chez Google car la qualité de l’information est au cœur de nos produits. Que ce soit sur le plan technique, des standards ou des politiques d’entreprise, nous travaillons d’arrache-pied pour renforcer notre résilience contre la désinformation.

Comment réconciliez-vous le travail que vous faites sur ces technologies émergentes, qui évoluent très rapidement, avec la nécessité de se conformer à des lois qui interviennent sur un temps beaucoup plus long et changent rarement une fois votées ?

Quelle est la différence entre la confiance et sécurité et la conformité ? De façon générale, le respect de la conformité s’applique aux problèmes qui sont déjà résolus, que nous savons traiter, tandis que notre travail est plutôt de définir les principes de base pour résoudre de nouveaux problèmes auxquels nous n’avions jamais été confrontés.

Si vous prenez le Digital Services Act, par exemple, qui est une législation révolutionnaire qui change vraiment les choses pour un business comme le mien, il ne décrit pas complètement les limites à ne pas franchir. Il définit des dangers et cherche à déterminer comment vous soupesez les risques, quels engagements vous prenez et ensuite des audits sont réalisés. Il est difficile pour une loi d’être trop prescriptive dans un domaine très large et qui évolue très vite comme celui-ci. Il faut faire attention à ne pas verrouiller des méthodes alors que nous sommes encore en train d’apprendre comment mesurer les choses.

Je vais vous donner un exemple avec la labellisation, car cela revient souvent dans différents domaines. Quand il s’agit de nouvelles formes d’expression utilisant l’IA générative, le réflexe de beaucoup de personnes c’est de se dire qu’il faut systématiquement indiquer si un contenu a été généré par IA ou pas. C’est pourquoi YouTube requiert que les créateurs indiquent s’ils utilisent l’IA générative, et c’est pourquoi nous imposons aux campagnes présidentielles de révéler s’ils s’en servent pour leurs publicités. Nous pensons que c’est très important.

Mais d’un autre côté, nous ne voulons pas que les utilisateurs se mettent à penser que tout ce à quoi on applique un label n’est pas digne de confiance, et que tout ce qui n’a pas de label l’est. Nos recherches montrent que c’est ce qui peut se produire si vous vous reposez trop sur la labellisation des contenus. C’est là aussi qu’est notre rôle par rapport à la régulation : nous défrichons de nouveaux domaines pour déterminer ce qui est utile ou pas.

Basé sur votre expérience, que pensez-vous être la meilleure approche en matière de réglementation pour garantir la sécurité des utilisateurs sans freiner le développement technologique ?

Google a dit par le passé que l’IA est une technologie trop importante pour qu’elle ne soit pas régulée. Heureusement pour moi, ce n’est pas mon sujet en tant que tel, je le laisse à mon patron, Kent Walker. Mais nous faisons office d’experts et nous sommes consultés pour l’élaboration de codes de bonnes pratiques et autres standards. Nous partageons les recherches sur lesquelles nous avons des choses à dire et, à l'inverse, nous indiquons quand nous pensons qu’un domaine n’est pas suffisamment mature pour arrêter une décision.

Je pose la question car vous avez une connaissance intime du sujet tandis que les législateurs n’en ont pas forcément une bonne compréhension, que ce soit sur le plan technique ou fonctionnel.

C’est marrant que vous disiez ça car au contraire, j’ai trouvé au fil de mes conversations récentes avec les régulateurs qu’ils ont un niveau de compréhension technique très élevé. J’ai moi-même travaillé à Washington D.C. par le passé [elle a été chef de cabinet du département du Trésor américain sous l’administration Obama, ndlr], et quand j’y suis retourné l’année dernière pour discuter des risques autour de l’IA, j’ai été abasourdie par leur maîtrise du sujet. C’était vraiment le jour et la nuit par rapport au fonctionnement d’il y a une dizaine d’années.

J’y vois un signe très prometteur quant au fait que les régulateurs s’intéressent aux détails et comprennent les nuances liées à ces technologies. Je ne saurais pas dire si c’est le cas partout dans le monde, mais si on prend le gouvernement de la Californie par exemple, ils ont des gens talentueux qui travaillent dur pour faire les choses bien et passer les lois au bon moment. Et bien sûr nous continuerons à partager notre expertise avec eux quand ils le souhaitent pour aider à créer les meilleures réglementations possibles.

"L'IA générative soulève des questions nouvelles et difficiles", Laurie Richardson, VP Trust & Safety, Google

À lire aussi