"L'intersection d'images et de texte peut nous aider à réduire les hallucinations", Joëlle Pineau, Meta FAIR

Vous partagez aujourd'hui au nom de FAIR plusieurs artefacts de recherche. Pourquoi décider de communiquer précisément maintenant à ce sujet ?

Joëlle Pineau : FAIR [Fundamental AI Research, ndlr] est une équipe chez Meta qui est dédiée à la recherche en intelligence artificielle, positionnée sur les questions de recherche fondamentale qui éventuellement pourront nous mener à avoir des connaissances de base, construire des modèles de recherche et résoudre tous les mystères de l'IA. Nous travaillons avec des équipes produits au sein de Meta, mais la plupart de nos travaux de recherche sont faits en mode open science.

Nous partageons la recherche de façon ouverte, que ce soit les articles scientifiques, le code, les modèles, les jeux de données, ainsi de suite. Et dans le cas présent, nous avons plusieurs projets qui étaient mûrs pour les partager. Nous avions déjà partagé les articles, mais pas nécessairement tous les artefacts, soit les modèles, les datasets et ainsi de suite.

Pouvez-vous revenir sur vos principales annonces ?

Il y a un certain nombre de choses dans la liste avec peut-être quelques-unes qui sont plus intéressantes à mentionner. Entre autres, il y a la méthode AudioSeal, qui permet de faire du watermarking, soit de l'authentification de ce segment audio. C'est un des gros défis de savoir si les informations sont authentifiées ou non. Nous n'avons pas de bonne technique encore pour l'audio. Cette méthode AudioSeal est un premier jet dans cette direction-là.

Nous avons aussi le modèle Chameleon. Quand la publication a été partagée le mois dernier, il y a eu pas mal d'intérêt pour ce modèle-là parce que c'est un modèle qui est capable de raisonner sur la combinaison d'images et de textes. Ce n'est pas un modèle qui est "state-of-the-art" pour le texte uniquement, comme GPT, Llama et d'autres, ni pour la génération d'images. Ce qui est intéressant, c'est cette intersection d'images et de texte ensemble. Ça peut nous aider à réduire ce que nous appelons les hallucinations.

La communauté de recherche l'attend avec impatience parce qu'il n'y a pas d'autres modèles comme celui-là qui s'appuient sur une architecture combinée. Nous savons que c'est utilisé dans l'industrie, mais il n'y a pas de modèles ouverts qui permettent, à date, aux chercheurs universitaires et autres de développer à partir de cela.

Vous dites que vous êtes les premiers à proposer ça, une architecture combinée, mais vous le faites pour la recherche et pas forcément avec une idée de commercialiser ces modèles ensuite ?

Chez Meta, énormément d'efforts sont mis sur la commercialisation de ces projets. Nous partageons nos idées avec les équipes produits. Nous pouvons partager le modèle de façon ouverte pour les chercheurs et leur permettre de faire avancer la science. Et puis, en même temps, développer une version interne.

Nous ne cherchons pas à commercialiser le modèle Chameleon lui-même, mais nous avons produit, entre autres, les modèles Llama qui viennent avec une licence commerciale et ont permis de développer Meta AI. La commercialisation se fait en parallèle avec la recherche. Ce n'est pas toujours exactement le même modèle pour toutes sortes de raisons de sécurité, de vie privée, etc.

Justement, il y a eu une grande réorganisation au sein de Meta pour intégrer le laboratoire FAIR aux équipes produits dans le but de mieux travailler autour de l'IA générative. Est-ce que cela change quelque chose pour vous ? Qu'est-ce que cela apporte ?

Cette organisation est vraiment venue accélérer nos efforts de recherche. Si nous regardons un modèle comme Llama 1 qui est sorti début 2023 et qui était un produit de FAIR, c'était un modèle de recherche. Mais l'équipe GenAI a beaucoup plus de culture produit, ce qui permet vraiment de développer plus rapidement certaines technologies qui sont particulièrement intéressantes. L'équipe GenAI a produit Llama 2 et Llama 3, qui utilisent sensiblement la même architecture au niveau des LLM.

Mais quand vient le temps d'innover, de trouver des nouvelles architectures, des nouveaux algorithmes, FAIR est vraiment le terreau fertile pour ce type d'innovation. C'est assez complémentaire ce que nous faisons entre les deux équipes. À Paris, nous avons des gens des deux équipes qui sont assis côte à côte, l'équipe FAIR et l'équipe GenAI, et qui se partagent des connaissances, des modèles.

Ce changement ne vous pénalise pas sur certains points ?

Je dirais que la difficulté que l'on a rencontrée était le partage des ressources de calcul la première année de la fondation de l'équipe de GenAI. C'est-à-dire que nous avons mis sur pied très rapidement une équipe qui avait des grands objectifs et puis au niveau des ressources de calcul, il y a toujours une compétition, donc ça a été un peu plus compliqué au départ. Depuis, nous avons mis en place une planification sur la croissance des ressources de calcul pour les deux équipes qui s'échelonnent sur les prochains cinq ans.

Nous avons beaucoup plus de ressources qui vont nous permettre, dans les deux équipes, de réussir à nos objectifs. Aujourd'hui, je dirai que cela se passe bien. Les équipes travaillent beaucoup ensemble, mais le rôle de chacune est clair. Ce qui reste à préciser à plus long terme, c'est la fluidité du processus. Dans certains cas, on a beaucoup de résultats de recherche et puis on ne sait pas toujours lesquels sont les plus prometteurs pour passer à l'échelle, c'est là que la seconde équipe peut aider.

Vous évoquez les ressources de calcul. La taille des modèles ne cesse d'augmenter, et Meta comme d'autres construisent d'immenses infrastructures pour les entraîner et les faire tourner. La tendance va-t-elle s'inverser à un moment, avec un retour à d'autres formes de modèles plus compacts ?

Il y a beaucoup à apprendre quant au fait de développer des modèles plus gros. Nous travaillons sur le modèle Llama 3 qui est le plus gros modèle. Après ça, évidemment, nous planifions déjà Llama 4 et la suite des choses. Pour l'instant, tous les signes montrent qu'il y a encore des avantages à développer des modèles de taille supérieure. Maintenant, en parallèle de ça, il y a énormément de demandes pour des modèles plus petits. Quand on bascule dans les produits, on ne peut pas nécessairement faire tourner en temps réel un modèle avec plusieurs centaines de milliards de paramètres.

Ce qu'il faut comprendre, c'est que les petits modèles les plus performants sont ceux qui sont distillés des gros modèles. Si je prends un modèle avec plusieurs centaines de milliards de paramètres et que j'entraîne un modèle à un milliard de paramètres sur ce modèle-là, je vais avoir une meilleure performance que si j'entraîne directement le modèle à un milliard de paramètres.

Il est nécessaire de passer à une grande taille de modèle pour avoir toutes les capacités pour ensuite être capable de faire cette phase de distillation. En résumé, nous allons continuer à entraîner des modèles de taille supérieure et nous allons aussi investir sur des modèles d'excellente qualité de plus petite taille parce que c'est plus efficace pour les intégrer dans les produits et parce que les chercheurs le demandent aussi.

Vous évoquez les produits justement, auxquels pensez-vous en particulier ?

Le produit principal, c'est Meta AI, qui est en fait un assistant conversationnel qui est disponible sur presque toutes nos plateformes Facebook, Instagram, Messenger, WhatsApp au Canada et aux Etats-Unis. C'est aussi un modèle qui est disponible sur nos lunettes intelligentes, les lunettes Ray-Ban Meta. Nous avons aussi des modèles intéressants qui font de la génération d'images. C'est un peu passé sous le radar, mais nous avions partagé le modèle Imagine Flash au mois d'avril, en même temps que la sortie de Lama 3. Il permet de générer des images à partir de commandes textuelles. L'image s'ajuste au fil de la discussion, ce qui permet de faire toutes sortes d'animations intéressantes.

Vous avez évoqué Chameleon et AudioSeal, il y a d'autres annonces faites aujourd'hui que vous voudriez commenter ?

Oui, nous avons aussi un modèle appelé Jasco (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation, ndlr) qui permet de faire de la génération de musique. Un des gros enjeux quand on génère de l'audio, c'est de s'assurer qu'on génère selon l'intérêt de la personne qui va interagir avec. Le modèle nous permet dans ce cas-ci d'avoir une modélisation qui s'appuie sur des informations : que ce soit le tempo, que ce soit la progression harmonique du modèle, on peut interagir avec de façon beaucoup plus flexible, ce qui est intéressant.

Nous avons aussi un jeu de données qui s'appelle Prism. C'est un jeu de données, qui au niveau culturel, géographique, sociodémographique, est beaucoup plus large que ce qui est disponible à date. Dans le cadre d'une étude faite en partenariat avec des gens à l'Université Oxford, l'Université Sheffield et autres universités, nous avons 1500 participants dans 75 pays différents qui témoignent de leur préférence par rapport au modèle de langage. Nous avons souvent parlé de différents modèles de langage avec différentes personnalités ou différents styles, mais leur performance est affinée de façon fermée avec des systèmes de fine-tuning auxquels nous n'avons pas accès. Le jeu de données Prism donne beaucoup plus de diversité sur ces jugements et les préférences des usagers qui peuvent être utilisés par la suite pour des gens qui font du fine-tuning de modèles pour différentes applications.

Enfin, il y a le Multi-Token Protection. Ce qui est intéressant, c'est que la plupart des modèles de langage actuels prédisent un mot à la fois. Ils entendent la requête puis prédisent un mot, un deuxième, un troisième, etc. Ce n'est pas très rapide et cela ne permet pas nécessairement d'avoir autant de cohérence sur tous les mots qui sont prédits. L'idée du Multi-Token Prediction, c'est d'y aller d'un coup et de produire plusieurs mots ou des tokens d'un coup. Cela permet d'avoir une génération qui est plus cohérente et c'est quelque chose d'utilisé notamment pour les modèles de génération de code. Pour l'heure, c'est une méthode de recherche encore au stade expérimental.

Je voulais revenir sur un point évoqué par votre collègue Yann LeCun. Il réitère fréquemment sa position sur les limites des LLMs en matière de raisonnement et de généralisation. Néanmoins, Meta y investit lourdement. Quelle est votre position par rapport à la sienne ?

Nous avons l'occasion d'en parler souvent. Aujourd'hui, mon rôle, c'est de diriger un laboratoire de recherche avec plusieurs centaines de personnes. Et l'une des approches importantes consiste à toujours avoir un portfolio de recherche. Nous avons donc plusieurs projets qui évoluent, et dans certains cas, différentes hypothèses qui ont plus ou moins de potentiel à différentes échéances. Yann a souvent raison à long terme, mais ça ne veut pas nécessairement dire que ses idées sont les plus porteuses à court terme. Dans ce cas-ci, nous poursuivons une feuille de route qui est alignée avec la vision de Yann. Nous avons certains projets, comme celui de JEPA et d'autres, qui sont alignés sur cette vision, où il faut trouver une alternative. Il y a des chercheurs qui planchent sur ces questions-là.

En même temps, nous avons des chercheurs qui développent des modèles autoregressifs qui sont ceux qui performent le mieux. Nous pouvons nous permettre dans un laboratoire de recherche d'avoir plusieurs hypothèses en parallèle. Je ne pense pas qu'on puisse se permettre de seulement travailler sur le long terme. Il faut aussi que nous développions des modèles rapidement. Yann et moi sommes assez d'accord là-dessus. Lui, évidemment, son rôle c'est de faire avancer la recherche à long terme. C'est là-dessus qu'il se concentre et ce sur quoi il réfléchit et communique beaucoup. Mais je ne pense pas qu'il voudrait que nous pivotions tous nos efforts seulement sur le long terme.

Quelle est la feuille de route de FAIR pour les prochaines années ?

Nous sommes partis sur une feuille de route de recherche sur à peu près 10 ans, c'est très clair avec l'entreprise et la direction. Nous venons de clore un premier cycle de 10 ans pour FAIR et nous amorçons le deuxième cycle. Le laboratoire va bien. Nous avons eu une belle saison, nous avons pu recruter des chercheurs cette année, des jeunes chercheurs qui sortent des universités à Paris et ailleurs ainsi que certains qui viennent d'autres entreprises et nous rejoignent pour cette culture de recherche "open". Nous allons voir beaucoup de progrès au niveau des modèles génératifs, mais aussi des progrès sur des techniques plus fondamentales qui vont sortir. Nous prévoyons également de revenir rapidement avec d'autres modèles, d'autres papiers, d'autres résultats à partager dans les prochains mois.

"L'intersection d'images et de texte peut nous aider à réduire les hallucinations", Joëlle Pineau, Meta FAIR

À lire aussi