Avec Genie 3, Google passe un cap majeur dans la simulation de mondes en 3D

Les chercheurs de Google Deepmind prouvent encore une fois qu'ils sont à la pointe de la recherche avec Genie 3, un générateur de mondes virtuels capable de simuler des environnements navigables en temps réel pendant plusieurs minutes, le tout en haute résolution. L'objectif est de pouvoir à terme s'en servir pour entraîner des modèles d'IA, notamment pour la robotique.

Julien Bergounhoux

Publié le 7 août 2025 à 18h00

Google Deepmind a levé le voile sur Genie 3, la nouvelle version de son "générateur de mondes", le 5 août. La famille de modèles Genie appartient à ce qu'on appelle en anglais des "world models", c'est-à-dire des modèles qui comprennent le fonctionnement du monde réel (physique, relations spatiales entre différents éléments, etc.). Grâce à cela ils peuvent générer des images pour simuler un monde dans lequel l'utilisateur peut naviguer.

C'est cette navigation, couplée à sa fidélité visuelle, qui rend Genie 3 particulièrement impressionnant. Concevoir un monde réaliste en 3D demande traditionnellement beaucoup de travail, même en utilisant des moteurs comme Unreal ou Unity. Genie 3 peut en créer à la volée.

Créer des mondes virtuels pour y entraîner des robots

Mais attention, l'objectif n'est pas de créer des jeux vidéo, mais plutôt d'entraîner d'autres modèles d'IA à mieux exécuter des tâches complexes. Ce sera un passage obligatoire pour permettre l'avènement des nouveaux robots humanoïdes ainsi que les assistants IA "incarnés", intégrés notamment à des lunettes de réalité augmentée.

Genie 2, publié en fin d'année dernière, avait ouvert la voie aux mondes 3D et plus seulement 2D. Cette nouvelle itération ne fait pas un aussi grand bond en avant, mais elle améliore la qualité des vidéos générées, passant de 360p précédemment à 720p, et ses vidéos restent cohérentes pendant plusieurs minutes, alors que celles de Genie 2 dégénéraient (sans mauvais jeu de mots) au bout de quelques dizaines de secondes. Genie 3 est aussi plus réactif : il est possible de se déplacer dans le monde généré en temps réel, ce qui n'était pas le cas pour Genie 2.

Mais sa plus grande nouveauté est la possibilité de modifier le monde déjà généré par des commandes textuelles, par exemple pour y ajouter un élément donné. D'après Deepmind, cela représente une étape vers la création d'un système qui pourra générer des environnements virtuels pendant des heures avec des scénarios précis pour entraîner des modèles d'IA à gérer des situations hors du commun ou qu'il serait dangereux de répliquer dans le monde réel. On pense par exemple aux systèmes de conduite autonome (ex : éviter un piéton traversant soudainement), mais Genie pourrait en théorie l'appliquer à n'importe quelle situation.

Sur le site de présentation du modèle, Deepmind indique qu'il peut reproduire des phénomènes naturels avec réalisme comme la luminosité et l'éclairage, la physique de l'eau, les plantes et les animaux... Il est également capable de générer des styles allant du cartoon au photoréalisme. Dans l'une de ses démonstrations les plus intéressantes, Genie 3 simule un homme en train de peindre une cloison dans une maison, avec vue à la première personne, dont il est possible de prendre le contrôle. Un environnement parfait pour apprendre la peinture à un robot. Genie 3 étant un modèle de recherche, il ne sera pas mis à disposition du public.

Avec Genie 3, Google passe un cap majeur dans la simulation de mondes en 3D

Créer des mondes virtuels pour y entraîner des robots

À lire aussi