Meta lance un modèle text-to-video alors qu'OpenAI ne donne plus de nouvelles de Sora

Avec sa famille de modèles de fondation Movie Gen, la maison-mère de Facebook met une claque à OpenAI et à son outil de génération de vidéos Sora. Les vidéos générées peuvent durer jusqu'à 16 secondes, précise Meta. Pour l'heure, aucune date de sortie n'est prévue, le modèle étant destiné à la recherche.

Célia Séramour

Publié le 4 octobre 2024 à 17h47

Meta - modèle text-to-video Movie Gen — Capture d'écran d'une vidéo réalisée à partir de l'invite textuelle "Une fille court sur une plage et tient un cerf-volant. Elle porte un short en jean et un t-shirt jaune. Le soleil brille".

Meta travaille d'arrache-pied pour développer des modèles d'intelligence artificielle qui se démarquent de ses concurrents. Son ultime découverte : une famille de modèles de fondation baptisée Movie Gen, incluant notamment un modèle text-to-video. Pour l'heure à destination du monde de la recherche, ce modèle pourrait bien être la prochaine révolution en matière de création vidéo. Meta précise que le modèle a été entraîné sur une combinaison d'ensembles de données sous licence et accessibles au public.

Le modèle de type Transformer compte 30 milliards de paramètres et a la capacité de générer des vidéos d'une durée maximale de 16 secondes à une vitesse de 16 images par seconde. Dans son évaluation, la maison mère de Facebook et Instagram assure que Movie Gen surpasse les modèles similaires du secteur dans ces tâches.

Un modèle de génération audio à 13 milliards de paramètres

Concernant les capacités audio, c'est un autre modèle de génération audio qui a été développé. Comportant 13 milliards de paramètres, il peut prendre une vidéo et des invites textuelles facultatives et générer un son de haute qualité jusqu'à 45 secondes, y compris le son ambiant, les effets sonores (Foley) et la musique de fond instrumentale, le tout synchronisé avec le contenu vidéo. En outre, Meta introduit une technique d'extension audio qui peut générer un son cohérent pour des vidéos de longueurs variables.

Au total, Movie Gen permet, à partir d'invites textuelles, de transformer du texte en vidéo, créer des vidéos personnalisées (à partir d'une seule image), réaliser un montage vidéo et même de créer de l'audio. Des caractéristiques qui ne sont pas sans rappeler Sora, l'outil text-to-video développé par OpenAI et publié en début d'année.

Sora, en panne de développement

Pourtant, depuis la publication de plusieurs vidéos, certes, impressionnantes, la start-up n'a plus donné signe de vie de son outil. "Aujourd'hui, Sora est mis à la disposition des Red Teamers pour évaluer les aspects critiques en termes de dangers ou de risques. Nous accordons également l'accès à un certain nombre d'artistes visuels, de designers et de cinéastes pour obtenir des commentaires sur la manière de faire évoluer le modèle afin qu'il soit le plus utile possible aux professionnels de la création. Nous partageons nos progrès de recherche en amont afin de commencer à travailler avec des personnes extérieures à OpenAI", peut-on lire sur la page dédiée à l'outil.

OpenAI va-t-il laisser tomber Sora ?

La start-up à l'origine de ChatGPT a présenté un certain nombre de mises à niveau, notamment avec la publication de sa famille de modèles o1. Elle a également équipé son assistant IA d'une fonction vocale - attendue depuis longtemps. De même, on s'attendait à une mise à jour concernant une potentielle sortie générale de Sora : le fait est que l'entreprise ne donne aucune nouvelle à ce sujet.

En parallèle, Tim Brooks, responsable de la recherche de Sora chez OpenAI, vient d'annoncer quitter le navire pour une autre entreprise bien connue : Google. "Je vais rejoindre Google DeepMind afin de travailler sur la génération de vidéos et les simulateurs de monde ! J'ai hâte de collaborer avec une équipe aussi talentueuse. J'ai passé deux années incroyables chez OpenAI à créer Sora",peut-on lire sur X. Son départ signe-t-il la fin des aventures pour l'outil Sora ? Rien n'est sûr.

Meta lance un modèle text-to-video alors qu'OpenAI ne donne plus de nouvelles de Sora

Un modèle de génération audio à 13 milliards de paramètres

Sora, en panne de développement

OpenAI va-t-il laisser tomber Sora ?

À lire aussi