Google dévoile Veo, un modèle capable de générer des vidéos réalistes

La firme de Mountain View met les bouchées doubles sur l'IA générative. Elle dévoile un modèle dédié à la génération de texte-vidéo et d’image-vidéo disponible immédiatement sur sa plateforme Vertex AI. En parallèle, elle rend également disponible Imagen 3 sur Vertex AI pour tous ses clients dans le monde.

Célia Séramour

Publié le 4 décembre 2024 à 11h00

Modèle text-to-video et image-video Veo de Google

La semaine dernière, la rumeur courait qu'Amazon serait prêt à lancer un modèle multimodal impressionnant – pas moins de 2 000 milliards de paramètres – répondant au doux nom d'Olympus. Il n'aura pas fallu longtemps à l'un de ses concurrents, à savoir Google, pour répliquer. La firme vient de lâcher une bombe du nom de Veo : il s'agit d'un modèle capable de générer des vidéos en 1080p à partir de commandes textuelles ou visuelles. Disponible sur Vertex AI en version "private preview", le modèle image-to-video a de quoi impressionner.

Capable de s'adapter aux demandes des utilisateurs avec un panel de styles cinématographiques et visuels variés, il génère des vidéos qui correspondent étroitement à l'invite textuelle. Le modèle est même capable de suivre et d'appliquer une série de prompts.

Développé par les équipes de DeepMind, Veo s'appuie sur des années de travail sur des modèles de vidéo générative, notamment Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere, ainsi que sur l'architecture Transformer et Gemini. Et Google ne s'arrête pas là, il va même jusqu'à utiliser de images générées avec son dernier modèle texte-image Imagen 3 et des images du monde réel pour créer de courtes séquences vidéo.

Donner les clés de la production vidéo aux non-initiés

A terme, le géant de Mountain View espère que son modèle Veo répondra à certains besoins, incluant une production plus rapide, des coûts réduits et la capacité de prototyper et d'itérer rapidement sur le contenu vidéo. L'agence de voyages en ligne Agoda utilise déjà certains modèles de Google, incluant Veo, Gemini et Imagen, pour rationaliser sa production de publicités vidéo.

"Nous explorons les capacités de génération de médias de l'IA Google Cloud, utilisant Imagen pour créer des visuels uniques de destinations de rêve dans divers styles. Ces images sont ensuite animées sous forme de vidéos avec la technologie image-to-video de Veo. Ces technologies ont le potentiel de rationaliser notre processus de création de contenu de jours à heures", commente Matteo Frigerio, Chief Marketing Officer au sein d'Agoda.

D'autres entreprises sont déjà sur le pont pour utiliser toutes les capacités de Veo. Certaines d'entre elles ont, en effet, déjà intégré Imagen 3 pour la production de visuels servant pour les campagnes publicitaires à l'instar d'Honor, Mondelez, Quora ou encore WPP.

Imagen 3 débarque enfin pour tous

En parallèle de cette annonce, la firme indique qu'Imagen 3 – dévoilé en mai dernier lors de la conférence Google I/O – sera disponible pour tous les clients de Vertex AI à partir de la semaine prochaine. Pour mémoire, Imagen 3 génère des images réalistes et de haute qualité à partir de commandes textuelles, avec une attention particulière portée aux détails, à l'éclairage et à la réduction des artefacts.

Google précise qu'Imagen 3, tout comme Veo, intègrent le filigrane numérique SynthID de Google DeepMind. Il s'agit de filigranes invisibles intégrés dans chaque image et chaque frame qu'Imagen 3 et Veo produisent. Et pour assurer la sécurité de tous, la firme précise que des garde-fous ont été intégrés aux deux modèles pour protéger les utilisateurs contre la création de contenu nuisible. Point important, le géant protège aussi ses utilisateurs d'un autre risque : celui du copyright, une indemnité pour les services d'IA génératives étant en effet proposée.

Google dévoile Veo, un modèle capable de générer des vidéos réalistes

Donner les clés de la production vidéo aux non-initiés

Imagen 3 débarque enfin pour tous

À lire aussi