La semaine dernière, la rumeur courait qu'Amazon serait prêt à lancer un modèle multimodal impressionnant – pas moins de 2 000 milliards de paramètres – répondant au doux nom d'Olympus. Il n'aura pas fallu longtemps à l'un de ses concurrents, à savoir Google, pour répliquer. La firme vient de lâcher une bombe du nom de Veo : il s'agit d'un modèle capable de générer des vidéos en 1080p à partir de commandes textuelles ou visuelles. Disponible sur Vertex AI en version "private preview", le modèle image-to-video a de quoi impressionner.
Capable de s'adapter aux demandes des utilisateurs avec un panel de styles cinématographiques et visuels variés, il génère des vidéos qui correspondent étroitement à l'invite textuelle. Le modèle est même capable de suivre et d'appliquer une série de prompts.

Développé par les équipes de DeepMind, Veo s'appuie sur des années de travail sur des modèles de vidéo générative, notamment Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere, ainsi que sur l'architecture Transformer et Gemini. Et Google ne s'arrête pas là, il va même jusqu'à utiliser de images générées avec son dernier modèle texte-image Imagen 3 et des images du monde réel pour créer de courtes séquences vidéo.
Donner les clés de la production vidéo aux non-initiés
A terme, le géant de Mountain View espère que son modèle Veo répondra à certains besoins, incluant une production plus rapide, des coûts réduits et la capacité de prototyper et d'itérer rapidement sur le contenu vidéo. L'agence de voyages en ligne Agoda utilise déjà certains modèles de Google, incluant Veo, Gemini et Imagen, pour rationaliser sa production de publicités vidéo.
"Nous explorons les capacités de génération de médias de l'IA Google Cloud, utilisant Imagen pour créer des visuels uniques de destinations de rêve dans divers styles. Ces images sont ensuite animées sous forme de vidéos avec la technologie image-to-video de Veo. Ces technologies ont le potentiel de rationaliser notre processus de création de contenu de jours à heures", commente Matteo Frigerio, Chief Marketing Officer au sein d'Agoda.

D'autres entreprises sont déjà sur le pont pour utiliser toutes les capacités de Veo. Certaines d'entre elles ont, en effet, déjà intégré Imagen 3 pour la production de visuels servant pour les campagnes publicitaires à l'instar d'Honor, Mondelez, Quora ou encore WPP.
Imagen 3 débarque enfin pour tous
En parallèle de cette annonce, la firme indique qu'Imagen 3 – dévoilé en mai dernier lors de la conférence Google I/O – sera disponible pour tous les clients de Vertex AI à partir de la semaine prochaine. Pour mémoire, Imagen 3 génère des images réalistes et de haute qualité à partir de commandes textuelles, avec une attention particulière portée aux détails, à l'éclairage et à la réduction des artefacts.
Google précise qu'Imagen 3, tout comme Veo, intègrent le filigrane numérique SynthID de Google DeepMind. Il s'agit de filigranes invisibles intégrés dans chaque image et chaque frame qu'Imagen 3 et Veo produisent. Et pour assurer la sécurité de tous, la firme précise que des garde-fous ont été intégrés aux deux modèles pour protéger les utilisateurs contre la création de contenu nuisible. Point important, le géant protège aussi ses utilisateurs d'un autre risque : celui du copyright, une indemnité pour les services d'IA génératives étant en effet proposée.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
