The Intercept et Raw Story portent plainte contre OpenAI et Microsoft pour violation du droit d'auteur

OpenAI et Microsoft sont accusés par les médias The Intercept, Raw Story et AlterNet de violation du droit d'auteur. Les deux entreprises auraient volontairement supprimé les informations relatives à l'auteur, au titre et d'autres informations de droit d'auteur pour entraîner des modèles d'IA générative. ChatGPT serait donc en capacité de recracher des données provenant d'oeuvres journalistiques sans citer ses sources... Une affaire qui n'est pas sans rappeler la plainte déposée par The New York Times pour des faits similaires.

Célia Séramour

Publié le 1er mars 2024 à 16h02

Les plaintes contre OpenAI et Microsoft s'accumulent. Dernières en date, celles déposées auprès du tribunal dans le district sud de New York par les médias d'investigation The Intercept, Raw Story et AlterNet (racheté par Raw Story en 2018). Si les dossiers sont distincts, ils sont plaidés par le même cabinet d'avocat Loevy & Loevy. Ces trois organismes de presse allèguent une violation du droit d'auteur, notamment la suppression de l'auteur, du titre et d'autres informations de droit d'auteur lors de l'entraînement de modèles d'IA.

Ils rappellent que la clause sur le droit d'auteur de la Constitution américaine habilite le Congrès à protéger les œuvres de la créativité humaine. En 1998, ce dernier a adopté le Digital Millennium Copyright Act (DMCA) qui interdit la suppression des informations relatives à l'auteur, au titre, au droit d'auteur et aux conditions d'utilisation des œuvres protégées lorsqu'il y a des raisons de savoir que cela induirait, permettrait, faciliterait ou dissimulerait une violation du droit d'auteur.

Les plaignants réclament "des dommages réels et les bénéfices des défendeurs, ou des dommages-intérêts statutaires d'au moins 2500 dollars par violation" ainsi que le retrait de leurs contenus des modèles d'IA générative.

Des informations importantes sur les droits d'auteur supprimées

Les systèmes d'intelligence artificielle générative et particulièrement les grands modèles de langage (LLM) sont entraînés à partir d'ensemble de données créées par des humains. Et c'est sur ce point en particulier que s'attardent les trois plaignants : ils affirment dans leurs plaintes respectives que selon le site Web Copyleaks, près de 60% des réponses fournies par GPT-3.5 d'OpenAI contenaient une forme ou une autre de contenu plagié, et plus de 45% contenaient un texte identique à un contenu préexistant.

C'est ici que les choses se corsent. "Lorsqu'ils ont rempli leurs ensembles d'entraînement avec des œuvres journalistiques, les défendeurs (OpenAI, ndlr) avaient le choix : ils pouvaient entraîner ChatGPT en utilisant des œuvres journalistiques avec les informations de gestion du droit d'auteur protégées par le DMCA intactes, ou ils pouvaient les supprimer". Les plaignants affirment ainsi qu'OpenAI a choisi cette dernière solution et, ce faisant, a formé ChatGPT à ne pas reconnaître ou respecter les droits d'auteur, à ne pas avertir les utilisateurs de ChatGPT lorsque les réponses qu'ils recevaient étaient protégées par les droits d'auteur des journalistes, et à ne pas fournir d'attribution lorsqu'ils utilisaient les œuvres de journalistes humains.

La firme de Redmond rattrapée par son partenariat avec OpenAI

Microsoft est visé uniquement par la plainte de The Intercept. Ce dernier précise ainsi que le géant de Redmond "a investi des milliards de dollars dans OpenAI et détiendra une participation de 49 % dans la société une fois son investissement remboursé". Rappelons qu'elle fournit le datacenter et l'infrastructure de supercalculateurs utilisés pour entraîner les ensembles de données sur lesquels ChatGPT repose, données ayant également servi à l'entraînement de son propre outil Copilot.

Dans les détails, la plainte indique que "Microsoft a intentionnellement supprimé les informations relatives à l'auteur, au titre, à l'avis de droit d'auteur et aux conditions d'utilisation des œuvres protégées par le droit d'auteur du demandeur lors de la création des ensembles d'entraînement de ChatGPT et Bing Copilot". Au regard de cette relation avec les entités d'OpenAI, Microsoft est donc accusé d'avoir partagé avec le créateur de ChatGPT un certain nombre de copies d'œuvres journalistiques provenant du média The Intercept sans les informations relatives au droit d'auteur.

OpenAI n'en est pas à son coup d'essai

Ces plaintes déposées sont les plus récentes et ne sont pas sans rappeler l'affaire qui oppose The New York Times à OpenAI et Microsoft. Le grand quotidien américain accuse la start-up d'avoir utilisé des millions d'articles pour entraîner le grand modèle de langage alimentant le robot conversationnel ChatGPT. L'affaire a d'ailleurs connu un rebondissement en ce début de semaine. OpenAI a ainsi affirmé dans une requête par ses avocats que The New York Times avait utilisé des "commandes trompeuses" pour amener ChatGPT à régurgiter son contenu. Il s'agirait d'un bug que le média aurait largement exploité.

Si l'argument avancé semble peu sûr, OpenAI s'appuie toutefois dessus ainsi que sur d'autres raisons pour pousser le tribunal de district américain du sud de New York à rejeter plusieurs des plaintes déposées dans le cadre du procès pour violation du droit d'auteur du média, y compris celles déposées par The Intercept, AlterNet et Raw Story.

The Intercept et Raw Story portent plainte contre OpenAI et Microsoft pour violation du droit d'auteur

Des informations importantes sur les droits d'auteur supprimées

La firme de Redmond rattrapée par son partenariat avec OpenAI

OpenAI n'en est pas à son coup d'essai

À lire aussi