Qu'existe-t-il à l'intersection de l'intelligence artificielle et des jeux vidéo ? Muse. Ce modèle d’IA générative appliqué au domaine vidéoludique représente "une avancée majeure pour l’idéation dans le gameplay", vante son créateur Microsoft. Les chercheurs ayant participé à son développement évoquent un modèle d'action humaine et mondiale (WHAM) pour le décrire. Dans les faits, ce modèle est capable, en observant le jeu d'un humain, d'assimiler des connaissances approfondies de l'environnement, incluant sa dynamique, son évolution dans le temps en réponse aux actions.
Des données récupérées du jeu Bleeding Edge
Développé conjointement par les équipes Research Game Intelligence, et Teachable AI experiences de Microsoft et les équipes des Studios Xbos Games à l'origine des jeux Bleeding Edge et Ninja Theory, Muse élargit le champ des possibles en matière de jeux vidéo : itérer, réinventer et créer devient plus rapide. Pour parvenir à ce modèle, les équipes ont collecté des données issus du jeu Xbox Bleeding Edge datant de 2020.
Les instances de Muse ont ainsi été entraînées sur des données de jeu humaines (visuels et actions de manette) du jeu. Muse (utilisant le modèle WHAM-1.6B) a été entraîné sur plus d'un milliard d'images et d'actions de manette, ce qui correspond à plus de 7 ans de jeu humain continu. Microsoft précise avoir pris le parti d'entraîner son cluster de GPU sur des H100 jugés les plus performants du marché afin, entre autres, de générer des visuels à une résolution de 300 x 180 pixels.
L'un des chercheurs ayant participé au projet, Tabish Rashid, commente : "Au début, se voir attribuer une allocation de H100 était assez intimidant, surtout pour comprendre comment l'utiliser au mieux pour passer à des modèles plus grands avec les nouveaux encodeurs d'images. Après des mois d'expérimentation, ce fut extrêmement gratifiant de voir enfin les résultats du modèle sur une map différente".
1 million de mises à jour d'entraînement
Au fil du temps, Muse est capable de créer des visuels de jeu de plus en plus cohérents, avec un caractère reconnaissable, des mouvements de base et de géométrie acquis, sans aucune dégénérescence au fil du temps et avec une interaction jugée correcte par rapport à la réalité de base du gameplay humain.
"Au début de l'entraînement (10 000 mises à jour d'entraînement), nous voyons des signes de vie, mais la qualité se détériore rapidement. Après 100 000 mises à jour d'entraînement, le modèle est cohérent dans le temps mais ne capture pas encore les aspects relativement moins fréquents de la dynamique du jeu, tels que la mécanique de vol. La cohérence avec la réalité de base continue de s'améliorer avec un entraînement supplémentaire, par exemple, la mécanique de vol est capturée après 1 million de mises à jour d'entraînement", décrivent les chercheurs.
Une publication en open source
Microsoft affirme par ailleurs que dans le but de s'ouvrir à la communauté de chercheurs, les pondérations et exemples de données sont publiés en open source. De même, les équipes de la firme mettent l'exécutable à disposition du démonstrateur WHAM, un prototype conceptuel qui fournit une interface visuelle pour interagir avec les modèles WHAM développés. Le tout est disponible sur Azure AI Foundy, un espace pour la recherche en IA.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
