Selon Mustafa Suleyman, tout le contenu du web est libre d'utilisation

Evoquant un "contrat social" lié au partage d'informations sur le world wide web, le patron de Microsoft AI ne voit aucun problème à récupérer tous les contenus possibles sur Internet pour entraîner des modèles d'IA générative. Une remarque qui risque de cristalliser les tensions existantes et raviver, une fois de plus, les craintes du public comme de certaines entreprises concernant la protection de leurs données.

Mustafa Suleyman CEO Microsoft AI
Mustafa Suleyman a cofondé DeepMind puis Inflection AI, deux start-up axées sur l'intelligence artificielle, avant de rejoindre Microsoft.

Au Festival "Ideas" d'Aspen, Mustafa Suleyman, CEO de Microsoft AI, s'est entretenu avec le journaliste et auteur américain Andrew Ross Sorkin de CNBC sur l'avenir de l'intelligence artificielle. Et le moins que l'on puisse dire, c'est qu'il a une vision bien curieuse de la façon dont la propriété intellectuelle est protégée et peut ou non être exploitée.

Ainsi, à la question de savoir si "les entreprises d'IA ont effectivement volé la propriété intellectuelle du monde entier", Mustafa Suleyman répond "qu'en ce qui concerne le contenu qui se trouve déjà sur le web ouvert, le contrat social de ce contenu depuis les années 90 est qu'il est libre d'utilisation. Tout le monde peut le copier, le recréer, le reproduire. C'est ce qu'on appelle du freeware".

Récupérer les données, même celles couvertes par le droit d'auteur

Il précise toutefois qu'il existe une catégorie distincte dans laquelle un site web, une maison d'édition ou un organe de presse peut explicitement dire qu'il ne veut pas être soumis à une forme de scraping de ses contenus grâce au fichier robots.txt en précisant : "Ne pas récupérer ou explorer mes données pour toute autre raison que pour m'indexer afin que d'autres personnes puissent trouver ce contenu". Seul hic selon lui : il s'agit d'une zone grise. Il estime que cette question sera, à l'avenir, examinée par la justice.

Zone grise que Google et OpenAI ont par ailleurs largement exploité pour entraîner leurs modèles, comme le révélait le New York Times en avril dernier. Le quotidien affirmait ainsi que les deux entreprises ont littéralement aspiré l'audio de millions d'heures de vidéos présentes sur YouTube afin de les transcrire et en faire des données exploitables pour l'entraînement de leurs grands modèles de langage. Et ce, malgré la politique d'utilisation pourtant stricte de la plateforme.

De son côté, Perplexity a carrément menti en donnant un faux nom de crawler aux éditeurs et ne respectant pas le fichier robots.txt, qui n'est pas une obligation légale mais une forme d'auto-régulation des moteurs de recherche. Personne ne tomberait des nues si on apprenait un jour qu'OpenAI en a fait de même.

Une position plus que critique

Aux commandes de la division Microsoft AI créée en mars dernier, Mustafa Suleyman s'était déjà fait remarquer lors de l'annonce de son départ d'Inflection AI, et pour cause. Il emportait avec lui 70 personnes de la start-up, incluant Karen Simonyan, chief scientist et cofondatrice, ainsi que plusieurs membres clés de l'équipe.

Quelques jours plus tard, nous apprenions par la voix de Reuters que Microsoft a accepté de payer à Inflection AI environ 650 millions de dollars en espèces dans le cadre d'un accord inhabituel qui permettrait à la firme de Redmond d'utiliser les modèles d'IA générative de la start-up et d'embaucher la plupart des personnes de l'équipe, y compris ses cofondateurs et son VP responsable de l'ingénierie.

Une source proche du dossier précisait alors que les modèles dits "de haut niveau" d'Inflection AI seraint disponibles sur le service cloud Azure de Microsoft à la suite de cet accord. Reuters ajoute qu'"Inflection utilise par ailleurs les frais de licence pour payer Greylock, Dragoneer et quelques autres investisseurs, a ajouté la source, affirmant que les investisseurs obtiendront un retour de 1,5 fois ce qu'ils ont investi". Cet accord inhabituel est désormais sous le coup d'une enquête de la FTC qui le soupçonne d'être une acquisition déguisée.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.
Cherche talents numériques
Les webinars