Vidéo

IA : Runway s'affirme dans la génération de vidéos avec Gen-3 Alpha

Si la démo Sora d'OpenAI avait réussi à marquer les esprits avec ses courtes vidéos au rendu impressionnant, il est certain que les dernières recherches de Runway en la matière ne manqueront pas de faire parler d'elles. Gen-3 Alpha, premier d'une série de modèles entraînés sur une architecture combinant des images et des vidéos, offre des vidéos de quelques secondes tout aussi marquantes.

Runway - Gen-3 Alpha
Runway lève le voile sur les capacités vidéos de son modèle Gen-3 Alpha reposant sur des commandes textuelles plus ou moins longues.

La start-up new-yorkaise spécialisée dans l'intelligence artificielle vient de dévoiler Gen-3 Alpha. Premier d'une série de modèles entraînés sur une nouvelle infrastructure conçue pour l'entraînement multimodal à grande échelle, ce modèle représente une amélioration majeure de la fidélité, de la cohérence et du mouvement par rapport à Gen-2. Pour mémoire, ce dernier est sorti en juin 2023, quelques mois seulement après Gen-1, paru en février.

Entraîné conjointement sur des vidéos et des images issues de jeux de données publics et privés, Gen-3 Alpha doit alimenter un certain nombre d'outils signés Runway. Cela inclut les outils Texte vers Vidéo, Image vers Vidéo et Texte vers Image, les modes de contrôle existants tels que Motion Brush, Advanced Camera Controls, Director Mode ainsi que les outils à venir pour un contrôle affiné de la structure, du style et du mouvement, indique l'entreprise. Les clips vidéos générés peuvent aller de 5 à 10 secondes.

Runway prêt à faire de l'ombre à Sora d'OpenAI

Avec ce modèle, Runway ouvre la voie à d'autres avancées en matières de génération de vidéos à partir de différents supports. Gen-3 Alpha est capable de générer des personnages humains expressifs avec une large gamme d'actions, de gestes et d'émotions, ce qui ouvre de nouvelles possibilités de narration, notamment pour une utilisation dans des publicités ou des courts-métrages, par exemple.

Jusqu'à présent, le seul outil comparable est celui d'OpenAI, Sora, dévoilé en février dernier et capable de créer des scènes d'une minute avec une résolution de 1080p. Evidemment, d'autres géants technologiques ont publié des outils text-to-video, à l'instar de Google avec Imagen Video et Veo ou Meta avec Make-A-Video. Toutefois, l'approche multimodale choisie par Runway semble plus convaincante au premier abord.

Des versions personnalisées à venir

Des chercheurs, ingénieurs et artistes ont travaillé ensemble sur le développement de ce modèle, apprend-on. "Il a été conçu pour interpréter un large éventail de styles et de terminologies cinématographiques". Runway propose ainsi de créer des version personnalisées de Gen-3 dans le cadre de partenariats établis avec les principaux organismes de divertissement et de médias.

La société précise que Gen-3 Alpha sera publié avec un ensemble de garanties, y compris son système de modération visuelle interne amélioré et les normes de provenance C2PA. Pour l'heure, aucune date de publication n'a été donnée, il faudra donc se contenter des vidéos de démonstration.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.