Avec MoCha, Meta génère des scènes de personnages photoréalistes à partir de dialogues audio

Tous les personnages parlants sont générés uniquement à partir de paroles et de textes. MoCha, le modèle Diffusion Transformer de Meta est capable de générer des séquences vidéo de qualité cinématographique.

Célia Séramour

Publié le 2 avril 2025 à 17h16

Mocha de Meta — Un extrait d'une vidéo générée par le système de Meta.

Les modèles fondamentaux actuels de génération vidéo sont encore loin de réaliser cette vision "réaliste" tant attendue. Du moins c'est ce qu'estime Meta. La firme a donc décidé de développer un système d'IA capable de créer des personnages parlants et chantants de qualité cinématographique à partir de simples paroles et de texte. Baptisé MoCha, l'outil est, soyons honnêtes, impressionnant au regard de la série de vidéo de démo publiée.

S'éloignant quelque peu des techniques "traditionnelles de synthèse de visages parlants", le framework développé repose sur Talking Characters, une tâche plus réaliste visant à générer des animations de personnages parlants directement à partir de la parole et du texte, expliquent les chercheurs de Meta. Contrairement au Talking Head, qui se limite à la zone faciale, Talking Characters cherche à générer le portrait complet d’un ou plusieurs personnages.

Un travail de synchronisation entre la vidéo et l'audio

"Les avancées récentes en génération vidéo ont permis d’atteindre un réalisme impressionnant dans les mouvements, mais négligent souvent la narration centrée sur les personnages — une tâche essentielle pour la création automatisée de films et d’animations",écrivent les chercheurs de Meta ayant planché sur MoCha. Ainsi, pour garantir une synchronisation précise entre la vidéo et l'audio, "nous proposons un mécanisme d’attention par fenêtre speech-vidéo qui aligne efficacement les jetons audio et vidéo".

Autre point intéressant : les chercheurs ont conçu des modèles d'invites structurés avec des balises de personnages, permettant des conversations multi-personnages avec des dialogues au tour par tour, rendant possible des échanges contextuels cohérents et cinématographiques entre personnages générés par l’IA. Le modèle est ainsi capable de générer des vidéos de 128 images à 24 FPS (clips de 5,3 secondes) en résolution 720p.

Quid des jeux de données vidéo ?

Les chercheurs expliquent que pour pallier la rareté des jeux de données vidéo annotés par la parole à grande échelle, ils introduisent une stratégie d'entraînement conjointe exploitant à la fois des données annotées par la parole et par le texte, ce qui améliore considérablement la généralisation à travers une variété d’actions de personnages. Dans les faits, les jeux de données ne sont pas si rares que cela, à condition de pouvoir y accéder par la voie légale. Or, il semble que Meta ait outre-passé cette voie pour entraîner son système sur des vidéos existantes qui pourraient être protégées par le droit d'auteur - et ce ne serait pas sa première fois en la matière.

Enfin, s'il faut bien admettre que les résultats de MoCha font monter d'un cran le réalisme en matière de génération vidéo, le géant des réseaux sociaux n'est toutefois pas le seul à se lancer sur ce terrain : des modèles comme SoRA, Pika, Luma, Hailuo existent et devraient s'améliorer au fil du temps.

Avec MoCha, Meta génère des scènes de personnages photoréalistes à partir de dialogues audio

Un travail de synchronisation entre la vidéo et l'audio

Quid des jeux de données vidéo ?

À lire aussi