L'impressionnante vidéo de Gemini, le dernier modèle d'IA de Google, est trompeuse sur ses capacités

La vidéo a ete montée pour faire croire à une conversation naturelle entre une personne et l'IA conçue par le moteur de recherche.

Jérôme Marin

Publié le 8 décembre 2023 à 11h14

La vidéo a fait le tour des réseaux sociaux pour illustrer les capacités de Gemini, le dernier modèle d’intelligence artificielle générative officiellement dévoilé mercredi 6 décembre par Google. Et elle a été visionnée plus de 1,5 million de fois sur YouTube. En réalité, elle est trompeuse.

D’une durée de six minutes, la vidéo publiée par Google montre une conversation naturelle entre une personne et Gemini. Celui-ci est capable d’identifier un canard dessiné à la main, de retrouver une boule de papier cachée sous un gobelet ou encore de proposer des objets à tricoter à partir de deux pelotes de laine de couleur différente.

Vidéo montée

Dans la description publiée sur YouTube, la société reconnaît que “la latence a été réduite et les réponses de Gemini ont été raccourcies pour des raisons de concision”. Mais un message, posté sur le blog de Google dédié aux développeurs, montre que la vidéo a été montée de toutes pièces, laissant apparaître une réalité beaucoup moins impressionnante.

Il n’y a jamais eu de conversation en temps réel. Et les questions ont été posées par des prompts textuels, accompagnés des images fixes. A plusieurs reprises, des éléments supplémentaires sont indiqués, précisant que le chatbot doit identifier un jeu à partir de trois images de main (en l'occurrence pierre, feuille, ciseau) ou qu’il doit classer trois images représentant le soleil, la Terre et Saturne en fonction de leur distance par rapport au soleil.

“Toutes les commandes et les résultats de la vidéo sont réels, mais raccourcis par souci de concision", répond, sur X, Oriol Vinyals, vice-président de la recherche chez DeepMind, la filiale britannique de Google spécialisée dans l’IA. “La vidéo illustre ce à quoi pourraient ressembler les expériences utilisateur multimodales construites avec Gemini. Nous l'avons réalisée pour inspirer les développeurs”, assure-t-il.

Erreurs factuelles

Au-delà de cette vidéo, les premiers pas de Gemini, d’ores et déjà intégré à Bard, le chatbot de Google, n’ont pas convaincu les premières personnes qui ont pu le tester. Ces dernières déplorent notamment de nombreuses erreurs factuelles ou des capacités limitées pour écrire du code informatique.

Cependant, cette version de Gemini n’est pas la plus puissante du modèle de Google. Baptisée Ultimate, celle-ci ne sera en effet lancée qu’en début d'année prochaine. Le moteur de recherche promet, résultats de tests à l’appui, des performances supérieures à celles de GPT-4, la dernière itération du grand modèle de langage d’OpenAI.

L'impressionnante vidéo de Gemini, le dernier modèle d'IA de Google, est trompeuse sur ses capacités

Vidéo montée

Erreurs factuelles

À lire aussi