Google fait un grand bond en avant dans la création de vidéo par lA avec Veo 3 et Flow

Google frappe fort avec ses nouveaux modèles d'intelligence artificielle générative à l'occasion de sa conférence I/O, notamment pour la création de vidéo. Veo 3 et Flow simplifient le processus au maximum tout en donnant plus d'options au créateur pour le cadrage et le montage des scènes. Une révolution en devenir.

Julien Bergounhoux

Publié le 21 mai 2025 à 21h30

La thématique de Google I/O cette année est sans conteste l’intelligence artificielle générative, et l’entreprise de Sundar Pichai annonce donc sans surprise une multitude de nouveaux modèles. Gemini a droit à plusieurs améliorations, notamment avec l’intégration des capacités de Project Mariner, qui permet au modèle de naviguer sur un site web, et avec le mode Deep Think pour Gemini 2.5 Pro.

Google s’est montré avare de détails sur Deep Think, indiquant seulement qu’il s’agit d’un mode de raisonnement avancé, capable d’explorer plusieurs hypothèses simultanément avant de répondre. Cela lui permet d’exceller dans les benchmarks de mathématiques (USAMO) ou de développement informatique (LiveCodeBench). Deep Think ne sera disponible qu’auprès d’utilisateurs de confiance dans un premier temps car Google souhaite effectuer plus de tests de sécurité avant de le mettre à disposition de tous.

Avec Veo 3, la génération de vidéo fait un vrai bond en avant

Outre Gemini, Google a dévoilé Imagen 4 pour les images statiques et Veo 3 pour la vidéo. Ce dernier est de loin le plus impressionnant du lot. Non seulement les vidéos qu’il produit sont bien meilleures que celles de Veo 2 (en particulier pour les scènes « réalistes »), mais il genère également les sons ambiants qui accompagnent les images : bruit du trafic en ville, chant des oiseaux à la campagne, jusqu’aux dialogues entre les personnages.

Veo 3 est aussi capable de prendre en compte des prompts cinématographiques, c’est-à-dire qui concernent des mouvements précis de caméra, des cadrages ou des retouches sur ce qui apparaît à l’écran ou pas. Pour mettre en avant ces nouvelles capacités, Google a mis au point une application baptisée Flow. Il s’agit d’une évolution de VideoFX, une expérimentation lancée l’année dernière dans Google Labs.

Flow, une web app pour démocratiser la création de vidéos par IA

Flow fonctionne en combinant Gemini et Veo 3 pour simplifier au maximum la création de scène. Il permet notamment "d’étendre" ou de "retoucher" une scène en quelques commandes, avec des résultats impressionnants sur le papier. Le fait que le modèle puisse conserver les mêmes styles, personnages et décors et que l’utilisateur ait la main pour l’adapter plus finement à ses besoins le rend exploitable commercialement, ce qui n’était pas vraiment le cas des modèles de génération vidéo jusqu’ici. C’est une avancée majeure.

Pour le promouvoir, Google a présenté trois court-métrages réalisés par des "créateurs" à l’aide de l’outil. Soyons honnête, ils sont assez médiocres. Beaucoup plus convaincant, son utilisation pour créer des scènes in utero dans Ancestra, un court-métrage réalisé par Eliza McNitt et produit par Primordial Soup, société de Darren Aronofsky. Veo 3 remplace ici les effets spéciaux traditionnels, sous la direction de professionnels, et c’est forcément tout de suite plus réussi.

Inutile de le préciser, mais la combinaison des capacités de Veo 3, de l'interface utilisateur de Flow et de la puissance de distribution de YouTube sera extrêmement puissante et l'intégration éventuelle de Flow dans YouTube Studio semble inévitable à moyen terme. Dans l'immédiat, Veo 3 et Flow seront disponible aux abonnés Ultra de Google, mais seulement aux Etats-Unis dans un premier temps.