Microsoft et OpenAI, confrontés à des allégations de violation des droits d’auteur de la part du New York Times et d’autres éditeurs, ont fait valoir mardi devant un tribunal fédéral que leur utilisation d’articles de presse accessibles au public pour former des modèles de langage étendus (LLM) était légale en vertu du principe d’utilisation équitable. doctrine.

Le poursuite , déposé en décembre 2023 et désormais consolidé avec des affirmations similaires du New York Daily News et du Center for Investigative Reporting, affirme que les systèmes d’IA comme ChatGPT et Microsoft Copilot ont exploité du matériel protégé par le droit d’auteur sans autorisation, portant atteinte aux revenus des éditeurs et aux droits de propriété intellectuelle.

Les plaignants affirment que ces modèles d’IA, formés sur des ensembles de données contenant des millions d’articles, peuvent reproduire ou résumer leur contenu de manière à se substituer aux œuvres originales.”Il s’agit de remplacer le contenu, pas de le transformer”, a déclaré Ian Crosby, représentant du New York Times.

Crosby a averti que de telles pratiques pourraient détourner entre 30 % et 50 % du trafic d’informations en ligne des sites Web des éditeurs.

La doctrine de l’utilisation équitable au cœur de l’affaire

La défense d’OpenAI repose sur l’argument selon lequel leur utilisation des données d’actualité est transformatrice et donc protégée par la doctrine de l’utilisation équitable de Joseph. Gratz, avocat d’OpenAI, a expliqué au juge Sidney Stein que ChatGPT traite les données en les divisant en unités plus petites appelées jetons, permettant au modèle de reconnaître des modèles et de générer du nouveau contenu plutôt que de reproduire directement le texte.

Joseph. Gratz, un avocat d’OpenAI, a déclaré que régurgiter des articles entiers”n’est pas ce pour quoi il est conçu ni ce qu’il fait”en ce qui concerne le fonctionnement de ChatGPT, arguant que les résultats ressemblant à du matériel protégé par le droit d’auteur ne se produisent souvent qu’après que des invites spécifiques de l’utilisateur tentent délibérément d’obtenir de telles réponses.

L’équipe juridique de Microsoft a soutenu ces affirmations, établissant des parallèles entre la formation à l’IA et les innovations technologiques antérieures telles que les magnétoscopes et les photocopieuses, qui ont été initialement contestées mais finalement jugées licites.

Ils ont fait valoir que l’utilisation équitable permet le développement de technologies qui profitent à la société sans compromettre les droits des créateurs de contenu.”La loi sur le droit d’auteur n’est pas plus un obstacle au LLM qu’elle ne l’était au magnétoscope (ou au piano mécanique, à la photocopieuse, à l’ordinateur personnel, à Internet ou au moteur de recherche)”, a déclaré la société dans ses documents judiciaires.

Les éditeurs réclament un préjudice financier et éthique

Les éditeurs affirment que l’utilisation sans licence de leur contenu viole non seulement la loi sur le droit d’auteur, mais menace également leur viabilité financière. Le procès met en évidence des exemples spécifiques. où les outils d’IA résument les articles ou fournissent des recommandations de produits qui contournent les paywalls des éditeurs

Selon le Times, Bing Chat de Microsoft, désormais rebaptisé Copilot, a redirigé les lecteurs potentiels loin de son plateforme d’affiliation Wirecutter, réduisant le trafic et les revenus.

Steven Lieberman, représentant le New York Daily News, a critiqué la technologie la dépendance des entreprises à l’égard de sources telles que Common Crawl, une organisation à but non lucratif qui regroupe des données Web à usage public. Il a décrit cette pratique comme un « passager clandestin » sur le travail des journalistes et des éditeurs, permettant aux sociétés d’IA de monétiser du contenu qu’elles n’ont pas créé ni autorisé.

Alors qu’OpenAI soutient que cette approche démocratise l’accès aux données, les critiques soulignent Le problème est aggravé par l’utilisation par OpenAI de la génération augmentée par récupération (RAG), une méthode qui intègre des informations en temps réel. du Web aux réponses générées par l’IA. Bien que cette technique améliore la pertinence et l’exactitude des résultats, elle soulève des questions sur la manière dont le contenu des éditeurs est accédé et reproduit.

Des enjeux élevés : la destruction potentielle des ensembles de données et leur reproduction. Sanctions financières

Le procès demande des milliards de dollars de dommages et intérêts et appelle à la destruction des ensembles de données contenant des éléments non autorisés. Une telle décision pourrait avoir de profondes implications pour OpenAI et Microsoft, les forçant à le faire. pour reconstruire leurs systèmes d’IA en utilisant uniquement du contenu sous licence ou du domaine public.

La loi fédérale sur le droit d’auteur autorise des amendes allant jusqu’à 150 000 $ pour chaque cas de violation délibérée

a>, un chiffre qui pourrait considérablement augmenter étant donné le volume de données impliqué.

Retard de l’outil Media Manager et réponses de l’industrie

Le Le procès souligne également les frustrations suscitées par le déploiement retardé par OpenAI de son outil Media Manager, initialement promis en mai 2024 pour donner aux créateurs un plus grand contrôle sur la façon dont leur contenu est utilisé dans les ensembles de données de formation à l’IA.

Les critiques affirment que cet échec laisse aux petits éditeurs et aux créateurs indépendants des options limitées pour protéger leur propriété intellectuelle.

Alors que de grands éditeurs comme TIME, The New Yorker, Vogue, Vanity Fair, Bon Appetit et Wired et plus de 2oo autres publications ont conclu des accords de licence avec OpenAI, de nombreux petits acteurs n’ont pas les ressources nécessaires pour négocier des accords similaires..

Le secteur dans son ensemble reste divisé, certaines entreprises adoptant des partenariats pour octroyer des licences de contenu pour le développement de l’IA, tandis que d’autres engagent des poursuites judiciaires. Au Canada, une coalition d’éditeurs a intenté des poursuites accusant OpenAI de « grattage généralisé », et des auteurs éminents comme Michael Chabon ont exprimé des préoccupations similaires.

Le juge se prononcera sur la requête en rejet

Le juge Sidney Stein, qui a démontré une grande compréhension des questions techniques lors de l’audience, n’a pas encore statué sur la requête en rejet des accusés.

Stein a reconnu la complexité de l’affaire. cas, affirmant que l’utilisation équitable jouerait probablement un rôle central dans sa décision. Le résultat pourrait créer un précédent critique sur la façon dont les systèmes d’IA générative interagissent avec les matériaux protégés par le droit d’auteur et sur les obligations des développeurs envers les créateurs de contenu.

Comme le les procédures judiciaires se poursuivent, les implications s’étendent bien au-delà d’OpenAI et de Microsoft. Cette affaire a le potentiel de façonner l’avenir de l’IA générative, en équilibrant l’innovation avec les droits des éditeurs et des créateurs.