"Nous sommes les seuls à avoir toutes les modalités disponibles", Warren Barkley, Google Cloud

A l'occasion de l'événement Next organisé par Google Cloud à Las Vegas, L'Usine Digitale a rencontré Warren Barkley, qui dirige les équipes produit de Vertex AI (IA, ML, LLM, plateformes, agents). Egalement mélomane, il revient sur les différentes annonces faites ces derniers jours, notamment l'intégration du modèle de génération de musique Lyria. L'occasion également d'aborder l'impact de ces modèles d'IA générative sur les métiers de la création et la manière d'appréhender au mieux ces changements.

Célia Séramour

Publié le 16 avril 2025 à 10h30

Google - outils IA pour la musique — Exemple d'interface utilisateur des outils d'IA dédiés à la musique développés par Google.

L'Usine Digitale - Pouvez-vous m’en dire plus sur la stratégie de Google concernant la stack IA et sa vision pour les années à venir ?

Warren Barkley : C’est très difficile de dire ce qui va se passer dans trois ou quatre ans. J’ai déjà du mal à prévoir ce qui va arriver dans six semaines. Mais ce qu’on observe clairement, c’est une tendance où l’IA devient une technologie d’assistance pour les employés - tout cet univers agentique, la capacité à automatiser des choses et à simplifier les tâches pour permettre aux gens de se concentrer sur un travail plus créatif. C’est dans cette direction que nous allons. Est-ce que ce sera dans trois ou quatre ans ? Honnêtement, je ne sais pas. C’est difficile de se projeter à plus de quelques mois tant tout évolue rapidement.

Et comment cela s’aligne-t-il avec la vision globale de Google ?

Quand on regarde notre vision globale chez Google, tout est centré sur les gens : il s’agit de leur permettre d’accéder à l’information et de l’utiliser de manière significative. Et dans Google Cloud, nous fournissons simplement les outils pour permettre cela. Il y a plein de manières différentes d’accéder à de l’information, à des données, et d’en tirer des insights.

Si l'on parle des annonces faites concernant Vertex AI, vous avez annoncé pas mal de choses, dont Lyria, le modèle text-to-music qui n'est pas vraiment nouveau puisqu'il a été développé en 2023. Pouvez-vous nous en dire plus ?

Oui, nous l’avons depuis environ deux ans, mais là c’est une version différente. Nos modèles de médias génératifs - Lyria pour la musique, Veo pour la vidéo, Chirp pour la voix aussi bien sûr - permettent aux créateurs de faire des choses plus intéressantes, plus rapidement. Dans cette nouvelle version, l’enjeu est d’améliorer la qualité. Par exemple, avec la musique, on essaye de se rapprocher de ce qu’un véritable orchestre ou un vrai musicien ferait. Nous travaillons sur des choses comme l’intonation, les tonalités, ou encore sur la façon dont le modèle improvise : est-ce que ça sonne vrai ? Est-ce que ça colle au rythme ? Ce sont des éléments sur lesquels nous progressons. Nous voyons des gens utiliser ces modèles pour la publicité.

Des entreprises un peu partout dans le monde s’en servent pour créer rapidement des publicités courtes et très créatives. Personnellement, je donne aussi des cours à l’université, et nous parlons souvent de cette révolution. Nous comparons souvent cela au passage de la bande magnétique au numérique. C’est exactement ce genre de transformation qui est en train de se produire dans le monde des médias. Et c’est vraiment excitant à voir.

Justement, revenons un instant sur la façon dont les différents métiers l'acceptent. En France, il y a une affaire intéressante portée devant la justice : certains auteurs français, via des syndicats qui les représentent, poursuivent Meta pour avoir utilisé des œuvres protégées. Qu’en pensez-vous ?

Nous sommes très attentifs au droit d’auteur. Évidemment, nous garantissons légalement les résultats produits par nos modèles. Cela signifie concrètement que nous en assumons la responsabilité légale. Si quelqu’un prétend que le résultat lui appartient, nous le défendrons devant la justice. Cela reflète notre confiance dans la manière dont nous avons entraîné nos modèles et avec quelles données. Et en tant que musicien moi-même - c’était d’ailleurs mon métier à l’époque… Eh bien, il n’y a qu’un nombre limité de notes et un nombre limité de façons de les assembler.

Si nous regardons ce qui est arrivé à Ed Sheeran récemment, certaines affaires légales illustrent bien cela. Il y a une part de déterminisme, et une part de probabilité. D’un point de vue probabiliste, il est très probable que certaines créations ressemblent à d’autres. Je pense que ces outils seront globalement très stimulants et utiles pour la créativité. Mais je constate aussi des différences générationnelles dans les réactions des musiciens : certains sont très à l’aise avec ça, d’autres beaucoup moins.

D’une certaine manière, l'IA démocratise tout. Dans le même temps, elle pourrait tuer l’industrie du graphisme, de la musique et de la vidéo, pour ne citer que ceux-là. Quel est votre avis à ce sujet?

Je suis assez vieux pour avoir travaillé dans des studios d’enregistrement. J’y passais des heures à enregistrer sur bande, à coller les morceaux de bande entre eux, à faire des mixages, etc. C’était une partie de mon métier à l’époque. Et puis, quand nous sommes passés au numérique, tout a changé. Plus besoin de couper des bandes ni d’y passer huit heures.

A mon sens, c’est une transition du même ordre : cela donne les outils pour faire ces choses-là beaucoup plus rapidement. Aujourd’hui, beaucoup de musiciens enregistrent chez eux, ils ne vont même plus en studio parce que le matériel est devenu très accessible. Le numérique a tout simplifié. Je pense que c’est juste une question de faire évoluer les outils pour faciliter la créativité.

Vous enseignez également les arts créatifs et l'IA à l'Ecole de musique BIMM à Londres. Pensez-vous que l'on devrait enseigner tout cela à l’école ?

Oui. Je pense que ce qui est passionnant avec l’IA, c’est qu’elle permet aux gens d’explorer des choses qu’ils n’auraient jamais pu faire à l’école auparavant. Par exemple, personne n’aurait eu l’occasion de couper des bandes ou de faire des sessions studio, sauf en étant déjà dans une filière très spécialisée. Aujourd’hui, les élèves peuvent s’amuser avec la musique, la vidéo, expérimenter, et apprendre à être créatifs dans des domaines variés.

Existe-t-il encore des défis à relever ?

Je pense que c’est encore très flou, surtout au niveau mondial, en ce qui concerne les aspects juridiques. Je ne sais pas vraiment où ça en est d’un point de vue légal - je ne suis pas juriste - mais comme pour toute transition, il y aura forcément des défis, et il faudra trouver un moyen d’avancer. Il est important de réguler l’IA et de mettre en place des garde-fous, oui. Mais je ne connais pas assez les spécificités pour me prononcer davantage. Chez Google, nous sommes favorables à l’idée de mettre en place des garde-fous. C’est important pour garantir la sécurité. Nous voulons que tout cela soit encadré.

Si l'on résume, aujourd’hui vous avez presque tout en matière de modèles d'IA : Imagen, Veo, Lyria, etc. Mais qu’est-ce qui vous différencie réellement des autres entreprises du secteur ?

Nous sommes les seuls pour l’instant à avoir toutes les modalités disponibles. Beaucoup d’acteurs en parlent, les grandes entreprises technologiques, mais combien possèdent vraiment leurs modèles, les ont développés, publiés, et sont prêtes à les assumer légalement ? C’est probablement l’une des plus grandes différences avec la concurrence. Certains n’ont pas de modèles à eux, ils les louent à d’autres. Nous avons toute cette diversité de modèles d'IA générative, nous les possédons et les défendons légalement.

Il y a un point que j'aimerai éclaircir. Ce n’est pas toujours très clair de savoir ce qui est gratuit ou non, mais aussi ce qui est inclus dans certaines offres et ce qui est en preview ou en disponibilité générale. Pouvez-vous faire un point ?

Oui, certains sont en GA - donc en disponibilité générale - d’autres en preview, et d’autres encore en version expérimentale. Ça dépend de la version et de l’avancement. Par exemple, certaines fonctions d’édition dans Veo sont encore en preview, mais le modèle en lui-même est disponible. Côté tarification, la plupart des éléments sur le cloud sont facturés à l’usage : par image, par seconde de vidéo, par instance vocale, etc. Donc on paie en fonction de l’utilisation.

Et vous pensez qu'il s'agit du bon modèle économique ?

Je pense qu’il existe d’autres modèles, comme l’abonnement. Par exemple, Runway ou d’autres proposent des formules à 100 dollars par mois pour accéder à certains outils. Nous explorons aussi ce type d’approche. Mais pour nos clients type entreprises, et même pour la majorité de développeurs que nous avons actuellement, le modèle à la consommation semble leur convenir parfaitement.

Vous parlez de Runway, mais il y a aussi ElevenLabs d'autres start-up du secteur qui émergent et gravitent autour de ce sujet de génération d'images, de vidéo ou encore de musique. Certaines sont-elles vouées à disparaître ou existe-t-il assez de place pour tout le monde sur ce marché ?

Il y a toujours une partie qui va finir par disparaître. Mais si nous regardons certaines boîtes spécialisées dans la voix, comme ElevenLabs, elles ont une vraie présence et une très bonne qualité. Si l'on développe un modèle spécifique à une tâche et que l'on se concentre vraiment sur un segment précis du marché, il y a de la place pour tout le monde.

Un dernier mot peut-être sur les tendances émergentes de l’IA ?

Nous allons de moins en moins appeler directement les modèles, et de plus en plus simplement dire à l’IA ce qu’on veut qu’elle fasse. Par exemple : "je veux que tu crées ce type d’application", "je veux une symphonie qui ressemble à ça, avec une vidéo comme ceci", etc. Nous nous orientons vers une interaction en langage naturel, où nous exprimons l’objectif final plutôt que de pousser des données dans un modèle et d’attendre un retour. A mon avis, c’est ça la grande tendance. Et dans les 12 prochains mois, nous allons voir émerger beaucoup d’usages comme ça : "voici mon objectif, je veux que tu automatises tout ce processus, trouve comment faire, et reviens avec une solution".

"Nous sommes les seuls à avoir toutes les modalités disponibles", Warren Barkley, Google Cloud

À lire aussi