OpenAI, Runway, Stability AI… La course aux vidéos générées par intelligence artificielle est lancée

Si le modèle de génération de vidéos Sora dévoilé par OpenAI la semaine dernière a été au coeur des discussions, il n'en reste pas moins que d'autres acteurs sont d'ores et déjà présents sur le marché. Adobe, Google, Meta, Nvidia ou encore Runway, tous poursuivent le même objectif : devenir l'acteur de référence en matière de vidéos générées par l'intelligence artificielle. La guerre est officiellement déclarée.

Sora OpenAI
La semaine dernière, OpenAI a dévoilé Sora, son nouveau modèle text-to-vidéo capable de générer des vidéos d'une minute avec une qualité impressionnante.

La compétition monte d'un cran pour les modèles d'IA générative appliqués à la vidéo. Le 15 février dernier, OpenAI a publié Sora, un nouveau modèle text-to-video qui franchit un cap dans la qualité de rendu. OpenAI a-t-il gagné la guerre ? Absolument pas, à en croire le CEO de la start-up Runway, Cristóbal Valenzuela.

Ce dernier a, dans la foulée, écrit sur X (ex-Twitter) "game on" en réponse aux différentes démonstrations vidéo publiées par OpenAI avec Sora. Runway développe son propre modèle de génération de vidéos, dont la deuxième version (baptisée Gen-2) peut traiter des instructions jusqu'à 320 signes et coûte 0,05 $ par seconde de vidéo générée.

Runway affirme que son outil est déjà utilisé par des entreprises comme Google, le groupe Publicis, Microsoft, New Balance, Nvidia, ou encore Vox.

Meta et Google, précurseurs dans la génération de vidéos

OpenAI et Runway ne sont bien évidemment pas les seuls sur ce marché. Adobe, Google, Meta ou encore Nvidia sont également en lice. C'est Meta qui a lancé le premier son outil "Make-A-Video" fin septembre 2022. Celui-ci est capable de transformer quelques mots ou lignes de texte en une vidéo de courte durée. Le système peut également créer des vidéos à partir d'images ou prendre des vidéos existantes et en créer de nouvelles similaires.

Quelques jours plus tard, c'était au tour de Google de présenter sa solution Imagen Video. Cette annonce faisait suite à la présentation d'Imagen (une solution pour transformer du texte en images). Imagen Video peut produire des vidéos d'une résolution de 1280 x 768 pixels avec 24 images par seconde.

Adobe et Nvidia sont aussi dans la course

En avril 2023, d'autres acteurs entrent dans la danse. Le laboratoire IA de Toronto du géant des cartes graphiques Nvidia dévoile ainsi VideoLDM, capable de générer des vidéos temporellement cohérentes d'une durée de quelques secondes à une résolution de 1280 x 2048 pixels. La firme tire notamment parti d'un modèle de synthèse text-to-video haute résolution basé sur le modèle Stable Diffusion open source de Stability AI.

En parallèle, les chercheurs de Nvidia entraînent également des modèles de prédiction pour permettre la génération de vidéos longues temporellement cohérentes de plusieurs minutes. Leur résolution est toutefois bien moins impressionnante, ramenée à 512 x 1024 pixels. De son côté, Adobe a lancé Firefly, une famille de modèles d’intelligence artificielle générative. Développée en partenariat avec Nvidia, elle permet de créer et de modifier rapidement des images à partir d’instructions en langage naturel. Premiere Pro, son logiciel de montage, devrait prochainement bénéficier de fonctions d'IA, incluant l'intégration du montage vidéo textuel.

Une fonction censée permettre aux utilisateurs de découper et de réorganiser la vidéo en fonction des transcriptions automatiquement détectées des paroles extraites des clips vidéo. "Avec un seul bouton, nous pouvons générer 1 000 versions de la même vidéo qui sont localisées",a déclaré à Reuters Ivo Manolov, vice-président d'Adobe pour les offres d'entreprise en matière d'audio numérique et vidéo. L'industrie de la publicité est ciblée en priorité.

Un rythme d'innovation qui s'accélère 

Fin janvier, Google a refait parler de lui avec Lumiere, que la firme décrit comme "un modèle de diffusion spatio-temporelle pour la génération de vidéo". Se basant sur une seule image de référence, Lumiere peut générer des vidéos dans le style cible en utilisant des pondérations de modèle texte-image affinées, peut-on lire. Il se démarque par son architecture Space-Time U-Net qui génère toute la durée temporelle de la vidéo en une seule fois, via un seul passage dans le modèle. Cette approche permet de générer 80 images à 16 images par seconde, précisent les chercheurs à l'origine du modèle.

Stability AI s'est également lancé à l'eau et a présenté la semaine dernière SVD 1.1, un modèle de diffusion pour des vidéos d'IA "plus cohérentes". Et si l'on suit le raisonnement de Cristóbal Valenzuela, les avancées en matière de vidéos générées par l'intelligence artificielle pourraient s'accélérer. "Une année de progrès se produit désormais en quelques mois. Des mois de progrès commenceront à se produire en quelques jours. Des jours de progrès commenceront bientôt à se produire en quelques heures."

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.
Cherche talents numériques
Les webinars