Vidéo

OpenAI crée un "TikTok de l'IA" avec Sora 2

OpenAI lance Sora 2 seulement quelques jours après la sortie de Vibes par Meta. Les vidéos générées par intelligence artificielle sont la nouvelle coqueluche des Big Tech qui disent vouloir "maximiser la création" de la part des utilisateurs. Mais en vérité, que gagnent vraiment ces deniers, si ce n'est scroller infiniment ?

OpenAI Sora 2
OpenAI Sora 2

OpenAI lance aujourd'hui la seconde génération de son modèle de génération vidéo Sora. Elle est accessible via une application iOS dédiée (appelée Sora), pour l'heure uniquement disponible aux États-Unis et au Canada, et seulement sur invitation. Sora 2 est plus réaliste dans les images qu'il génère, notamment avec une meilleure physique, et offre plus de contrôle sur le résultat que son prédécesseur. Il intègre aussi des dialogues et des effets sonores, bien loin de ce que permettait Sora en février 2024.

L'accès est gratuit, du moins dans un premier temps, "avec des limites généreuses pour que les utilisateurs puissent explorer librement ses capacités, bien que celles-ci restent soumises aux contraintes de calcul", concède OpenAI. Les utilisateurs de ChatGPT Pro pourront quant à eux utiliser un modèle expérimental de meilleure qualité, Sora 2 Pro, sur sora.com (et bientôt dans l’application dédiée). Enfin, Sora 2 sera prochainement disponible via l’API (en complément de Sora 1 Turbo).

"Un moment GPT-3.5 pour la vidéo"

Avec Sora 2, OpenAI a atteint ce qu'il considère comme "le moment GPT-3.5 pour la vidéo". Le modèle peut générer des scènes complexes, comme des routines de gymnastique olympique, des saltos arrière sur une planche de paddle modélisant avec précision la flottabilité et la rigidité sur l'eau, ou encore des triples axels en patinage artistique pendant qu’un chat s’accroche désespérément.

Autre atout : il est possible d'intégrer directement des éléments du monde réel dans Sora 2, notamment des personnes, avec une représentation fidèle de leur apparence et leur voix. Cette fonctionnalité qui consiste à "caster" quelqu'un dans des scènes via Cameo est très générale et fonctionne aussi bien pour un humain qu'un animal (ou même un objet). Sam Altman montre l'exemple en autorisant les utilisateurs de Sora à utiliser son image dans leurs vidéos.

Si le modèle est, certes, imparfait, il respecte mieux les lois de la physique que le précédent, et suit aussi mieux des instructions complexes sur plusieurs plans tout en maintenant l’état du monde de manière cohérente. OpenAI le décrit par ailleurs comme étant performant dans les styles réalistes, cinématographiques et animés. Cependant, son vrai compétiteur est Veo 3, et il est trop tôt pour déterminer lequel des deux est le meilleur (et selon quels critères).

Une application sociale de partage de vidéos courtes

Si l'accès au modèle Sora 2 se fait par le biais d'une application mobile, c'est parce qu'il est accompagné d'un système de partage à la manière d'un réseau social (d'où l'application mobile). Sam Altman avait annoncé la couleur en février, en réponse au projet de Meta de sortir un concurrent de ChatGPT (projet qui fut déraillé par le fiasco de Llama 4). OpenAI reproduit ce faisant le fonctionnement de TikTok, sans doute avec la perspective d'y intégrer de la publicité à terme.

Les vidéos pouvant être générées avec très peu d'effort (leur coût réel nécessite une autre discussion), le potentiel d'une telle application en matière de temps d'utilisation et de rétention d'utilisateur est potentiellement très élevé. Cela n'échappe à aucun des "Big Tech", et Meta a d'ailleurs devancé OpenAI en publiant quelques jours plus tôt Vibes, un flux de vidéos courtes générées par IA intégré à l’application Meta AI.

Prêt à tout pour gagner cette bataille, Meta a fait le choix de travailler avec des acteurs comme Midjourney et Black Forest Labs pour tenter de tenir tête à OpenAI et Google. Le fonctionnement de Vibes est similaire à celui de Sora 2 : les utilisateurs génèrent les vidéos (y compris en remixant des vidéos existantes), les modifient si besoin (ajout de musique, modification du style, etc.) et peuvent ensuite les publier sur Vibes, Instagram, Facebook Stories ou Reels.

Des risques inhérents

OpenAI ne se voile pas la face : avec la sortie de ce modèle viennent dans la foulée des préoccupations concernant le doomscrolling et l’addiction, la propagation de fausses informations, l'isolement, le risque de harcèlement et d'atteinte à la vie privée des personnes. En réponse à ces risques, la société indique avoir développé des outils et options de contrôle dédiés.

"Par défaut, nous vous montrons du contenu fortement axé sur les personnes que vous suivez ou avec qui vous interagissez, et nous privilégions les vidéos que le modèle estime les plus susceptibles de vous inspirer pour vos propres créations. Nous n’optimisons pas le temps passé sur le fil, et nous avons conçu l’application pour maximiser la création, pas la consommation", assure OpenAI. De même, il est prévu de limiter par défaut le nombre de vidéos générées que les utilisateurs peuvent voir par jour.

Pourtant, il est évident que cette application, à l'instar des réseaux sociaux largement utilisés par la population mondiale, cible justement des publics fragiles et souvent isolés. En plus des systèmes de sécurité automatisés, OpenAI affirme avoir renforcé ses équipes de modérateurs humains pour examiner rapidement les cas de harcèlement. Des contrôles parentaux sont aussi prévus pour Sora via ChatGPT, permettant aux parents de désactiver le défilement infini, de désactiver la personnalisation algorithmique et de gérer les paramètres de messages directs.

La protection des adolescents au coeur des préoccupations

OpenAI assure que la protection du bien-être des adolescents est une priorité. Contrôle de son image de bout en bout, possibilité de révoquer l'accès ou supprimer toute vidéo qui inclut une personne à tout moment... Il est vrai que l'entreprise installe quelques barrières à l'entrée. Mais cela sera-t-il suffisant ?

Rappelons qu'en avril dernier, les parents d’Adam Raine, un adolescent californien de 16 ans, ont porté plainte contre OpenAI. Ils accusent ChatGPT d’avoir entretenu une "relation malsaine" avec leur fils, lui fournissant des instructions détaillées pour se suicider et encourageant son geste. Cette affaire a mis en lumière les risques liés à l’utilisation de l’IA comme "compagnon" ou conseiller en santé mentale pour les adolescents, et a poussé OpenAI à renforcer ses mesures de sécurité.

A date, pour l'entreprise, "beaucoup de problèmes sur d’autres applications viennent de modèles de monétisation qui incitent à des décisions contraires au bien-être des utilisateurs". Cela évoque notamment les critiques sur l'impact d'Instagram auprès des jeunes filles. Si le projet actuel du créateur de ChatGPT laisse entendre le contraire, il ne faut toutefois pas se leurrer : la monétisation à court ou moyen terme et la rentabilité à long terme sont bel et bien les objectifs de l'entreprise. Il ne pourrait en être autrement.

A qui s'adressent ces services et qu'apportent-ils à la société ?

A l'avenir, il y a fort à parier que xAI produira une application similaire avec un "Grok video", tout comme Google qui travaille déjà activement sur la génération de vidéos. Mais peu importe le nombre d'applications qui suivront, le problème reste le même : quel est vraiment l'usage fait de ces vidéos IA et à quel point le grand public en a-t-il vraiment besoin ? Nous avons dressé une liste des problèmes et pourrions l'étoffer davantage, tout comme les publics ciblés qui, au-delà des adolescents, peuvent englober les personnes isolées et les personnes âgées, qui, à leur tour, seraient confrontées à ce type de contenu sans vraiment le comprendre et sans vraiment en connaître l'impact.

Qui sera donc là pour expliquer que non, ce chat qui se balade sur la tête d'une jeune patineuse n'a en réalité jamais existé et encore moins mis les pieds dans une patinoire ? Qui pourra donc expliquer qu'Emmanuel Macron n'a jamais tenu tel discours et qu'en réalité, il s'agit d'un montage réalisé à partir d'éléments réels, comme sa tenue vestimentaire, sa voix, et j'en passe ? Le fait est qu'en l'état actuel, l'humanité a bien d'autres problèmes bien plus concrets à traiter et pourtant elle n'a pas fini d'entendre parler de ces flux de vidéos IA. Et ce n'est peut-être pas une bonne nouvelle.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.