Deepfakes : Microsoft passe un cap dans le réalisme avec le modèle Vasa-1

Bluffant. Les quelques vidéos publiées par des chercheurs de Microsoft montrent une nouvelle fois l'étendue des possibilités qu'offre l'IA générative, avec ses bons comme ses mauvais côtés. A partir d'une source audio et d'une image fixe, leur modèle Vasa-1 peut générer des vidéos ultra-réalistes de personnes parlant ou chantant.

Célia Séramour

Publié le 18 avril 2024 à 17h40

Microsoft VASA-1 IA — À partir d'une seule image de portrait, d'un clip audio de parole et, éventuellement, d'un ensemble d'autres signaux de contrôle, des chercheurs ont réussi à développer une vidéo avec un visage parlant de haute qualité et réaliste.

La vitesse à laquelle l'IA générative se développe est bluffante. La preuve en est avec le dernier modèle d'IA générative dévoilé par Microsoft. Dans un article scientifique – étayé par de nombreux exemples des capacités de son modèle – neuf chercheurs de la firme présentent VASA, un framework permettant de générer des visages parlants réalistes de personnages virtuels à partir d'une seule image statique et d'un clip audio contenant des paroles.

En résulte un premier modèle, VASA-1, capable non seulement de produire des mouvements labiaux parfaitement synchronisés avec l'audio, mais aussi de capturer un large spectre de nuances faciales et de mouvements naturels de la tête qui contribuent à la perception de l'authenticité et de la vivacité.

Une capacité à traiter des images et audio externes à la base d'entraînement

Les chercheurs s'appuient sur une méthode qu'ils ont eux-mêmes développée comprenant un modèle holistique de dynamique faciale et de génération de mouvements de tête basé sur la diffusion qui fonctionne dans un espace latent de visage, et le développement d'un tel espace latent de visage expressif et démêlé à l'aide de vidéos.

"Notre méthode est capable de traiter des entrées photo et audio qui ne font pas partie de la phase d'apprentissage", précisent-ils. Par exemple, l'outil peut traiter des photos artistiques, des audios chantés et des discours non anglophones. Ces types de données n'étaient pas présents dans l'ensemble d'entraînement du modèle.

Des avatars réalistes très (trop) proches de visages humains

Dans une série d'exemple sur sa page de recherche, l'équipe de chercheurs dévoile des portraits aux identités virtuelles, non existantes et générées par StyleGAN2 ou DALL-E-3 (à l'exception de Mona Lisa). Ce qui impressionne le plus ici, ce sont à la fois la synchronisation lèvres-audio, mais aussi le large spectre d'émotions, de nuances faciales expressives et de mouvements naturels de la tête qui contribuent à la perception du réalisme et de la vivacité de ces visages.

Sur le réseau social X, un utilisateur s'est même amusé à faire un classement des dix meilleures séquences vidéo de VASA-1.

"Notre méthode offre non seulement une qualité vidéo élevée avec une dynamique réaliste du visage et de la tête, mais prend également en charge la génération en ligne de vidéos 512x512 jusqu'à 40 FPS avec une latence de départ négligeable (170 ms, évaluée sur un PC de bureau avec un seul GPU NVIDIA RTX 4090, ndlr)", précisent-ils. Pour eux, cela "ouvre la voie à des engagements en temps réel avec des avatars réalistes qui émulent les comportements conversationnels humains".

Des risques omniprésents

Les chercheurs indiquent explorer en parallèle "les compétences visuelles affectives pour des personnages virtuels et interactifs, qui n'usurpent pas l'identité d'une personne dans le monde réel". S'ils tiennent à préciser qu'"il s'agit uniquement d'une démonstration de recherche et il n'y a pas de plan de sortie de produit ou d'API", les chercheurs évoquent d'eux-mêmes les risques qui découlent du framework VASA et du modèle VASA-1.

"[Notre recherche] ne vise pas à créer un contenu utilisé pour tromper ou induire en erreur. Toutefois, à l'instar d'autres techniques de génération de contenu, elle pourrait être utilisée à mauvais escient pour usurper l'identité d'un être humain". S'opposant à la création de contenus trompeurs ou nuisibles de personnes réelles, les chercheurs affirment être "intéressés par l'application de notre technique pour faire progresser la détection des falsifications. Actuellement, les vidéos générées par cette méthode contiennent encore des artefacts identifiables, et l'analyse numérique montre qu'il y a encore du chemin à faire pour atteindre l'authenticité des vraies vidéos".

Vous souhaitez être en veille sur l’actualité du secteur de l’intelligence artificielle ? Inscrivez-vous gratuitement à la newsletter IA Insider.

Deepfakes : Microsoft passe un cap dans le réalisme avec le modèle Vasa-1

Une capacité à traiter des images et audio externes à la base d'entraînement

Des avatars réalistes très (trop) proches de visages humains

Des risques omniprésents

À lire aussi