IA générative : Avec son modèle text-to-video Sora, OpenAI passe un cap en matière de réalisme

Les vidéos produites sont d'une qualité époustouflante, et pourtant elles ont été créées à partir d'instructions textuelles. Sora, le nouveau modèle d'IA générative d'OpenAI, est capable de créer des scènes d'une minute avec une résolution de 1080p. Il peut même extraire des scènes d'autres vidéos ou les compléter.

Célia Séramour

Publié le 16 février 2024 à 12h12

Sora OpenAI — OpenAI a dévoilé Sora, un modèle texte-vidéo, aux performances impressionnantes. Ici un extrait tiré d'une vidéo créée par Sora à partir d'instructions textuelles détaillées : "plusieurs mammouths laineux géants s'approchent en traversant une prairie enneigée, leur longue fourrure laineuse souffle légèrement dans le vent pendant qu'ils marchent, des arbres couverts de neige et des montagnes aux sommets enneigés spectaculaires au loin, [...] la vue basse de la caméra est époustouflante, capturant le grand mammifère à fourrure avec une belle photographie et une profondeur de champ".

OpenAI a dévoilé Sora, un modèle d'IA générative capable de créer des séquences vidéo réalistes à partir d'instructions textuelles, le 15 février. S'il ne s'agit pas du premier modèle de ce type, la qualité des démonstrations publiées par la start-up représente un bond en avant indéniable par rapport à l'existant.

Pour le moment, l'outil peut générer des vidéos d'une durée maximale d'une minute tout en maintenant la qualité visuelle et le respect des instructions de l'utilisateur, d'après OpenAI. Il n'est disponible qu'auprès d'un nombre limité d'utilisateurs.

Des morceaux d'images au lieu de morceaux de mots

La firme précise qu'elle a entraîné conjointement des modèles de diffusion conditionnelle de texte sur des vidéos et des images de durées, résolutions et formats d'image variables. Elle exploite par ailleurs une architecture de Transformers "qui fonctionne sur des morceaux spatio-temporels de codes latents de vidéo et d’image". Sora semble donc être un modèle de diffusion qui s'appuie sur le principe des Transformers.

OpenAI précise s'être inspiré des grands modèles de langage, qui acquièrent des capacités généralistes en s'entraînant sur d'énormes quantités de données, à l'échelle du web. Pour développer Sora, OpenAI s'est appuyé sur ce qu'il appelle "des morceaux visuels" ("patches") à la manière des jetons ("tokens") qu'utilisent les LLM. En gros, il s'agit de morceaux d'images au lieu de morceaux de mots. Cette approche est particulièrement apte à représenter des modèles de données visuelles, d'après la start-up.

"À partir d’une vidéo d’entrée compressée, nous extrayons une séquence de morceaux spatio-temporels qui agissent comme des jetons de Transformers," indique OpenAI dans un document de recherche. La même méthode est appliquée aux images fixes, qui "ne sont que des vidéos statiques" pour la start-up.

"Notre représentation basée sur ces morceaux d'images permet à Sora de s'entraîner sur des vidéos et des images de résolutions, durées et formats d'image variables. Au moment de l'inférence, nous pouvons contrôler la taille des vidéos générées en disposant les morceaux initialisés de manière aléatoire dans une grille de taille appropriée".

L'annotation des vidéos d'entraînement réalisée par GPT

La compréhension des prompts textuels plus ou moins détaillés nécessite par ailleurs une grande quantité de vidéos avec des légendes correspondantes. Pour ce faire, OpenAI indique avoir appliqué la technique de re-titrage introduite dans DALL-E 3 aux vidéos d'entraînement.

"Nous formons d'abord un modèle sous-titreur hautement descriptif, puis nous l'utilisons pour produire des sous-titres textuels pour toutes les vidéos de notre base d'entraînement". Et comme pour DALL-E 3, GPT est utilisé pour transformer les commandes des utilisateur en sous-titres plus détaillés qui sont ensuite envoyés au modèle vidéo.

Et les résultats semblent être au rendez-vous. Sora génère des scènes très réalistes, sans aberrations majeures, avec une résolution de 1920 x 1080 pixels. D'après OpenAI, le modèle est même capable de jouer sur les mouvements et de varier le nombre de personnages visibles ou de détails dans la scène.

Le modèle est également impressionnant en matière de stabilité du sujet représenté. "En donnant au modèle une vision de plusieurs images à la fois, nous avons résolu un problème difficile consistant à garantir qu'un sujet reste le même même." De quoi donner des sueurs froides à une partie de l'industrie audiovisuelle, par exemple pour les vidéos promotionnelles.

Un inquietant potentiel en matière de désinformation

OpenAI présente Sora comme étant une "voie prometteuse" vers l'élaboration de modèles capables de simuler le monde physique, ce qui n'est pas du tout garanti. Si ses performances sont indéniables, il s'agit avant tout d'un modèle entraîné à générer des vidéos à partir d'une grande quantité de vidéos. Cela ne signifie pas qu'il appréhende le monde physique. La start-up s'est d'ailleurs bien gardée de donner des détails sur les données d'entraînement du modèle, qui sont sans doute déterminantes pour obtenir ce niveau de qualité.

Fidèle à son approche propriétaire, OpenAI a publié des détails limités sur ses recherches, et son patron Sam Altman a mis en garde sur le fait que Sora ne serait pas disponible au public avant un bon moment. La start-up étudie actuellement les dangers potentiels de son outil, qui pourrait notamment s'avérer dévastateur en matière de désinformation. Les trucages abondent de plus en plus sur Internet, propagés à une vitesse éclair sur les réseaux sociaux, mais la possibilité de générer des vidéos réalistes sans grand effort ferait passer les choses à une toute autre échelle.

On ne peut d'ailleurs s'empêcher de repenser à la lutte de pouvoir interne au sein de la start-up il y a trois mois, son conseil d'administration s'étant montré inquiet concernant les plans du CEO. Sora était-il à l'origine de l'affaire ? L'hypothèse est en tout cas plausible.