Microsoft und OpenAI, denen von der New York Times und anderen Verlagen Urheberrechtsverletzungen vorgeworfen werden, haben am Dienstag vor einem Bundesgericht argumentiert, dass ihre Verwendung öffentlich verfügbarer Nachrichtenartikel zum Trainieren großer Sprachmodelle (LLMs) im Rahmen der fairen Nutzung rechtmäßig sei Lehre.
Die Klage , eingereicht im Dezember 2023 und nun konsolidiert mit ähnlichen Behauptungen von The New York Daily News und dem Center for Investigative Reporting, behauptet, dass KI-Systeme wie ChatGPT und Microsoft Copilot urheberrechtlich geschütztes Material ohne Nutzen genutzt haben Autorisierung, was die Einnahmen der Verlage und die Rechte an geistigem Eigentum untergräbt.
Die Kläger behaupten, dass diese KI-Modelle, die auf Datensätzen mit Millionen von Artikeln trainiert werden, deren Inhalte auf eine Weise reproduzieren oder zusammenfassen können, die die Originalwerke ersetzt. „Hier geht es darum, den Inhalt zu ersetzen, nicht ihn zu transformieren“, sagte Ian Crosby, Vertreter der New York Times.
Crosby warnte, dass solche Praktiken zwischen 30 und 50 % des Online-Nachrichtenverkehrs von den Verlagen ablenken könnten. Websites.
Fair-Use-Doktrin im Kern des Falles
Die Verteidigung von OpenAI stützt sich auf das Argument, dass die Nutzung von Nachrichtendaten transformativ sei und daher durch geschützt sei Die Fair-Use-Doktrin erklärte Richter Sidney Stein, dass ChatGPT Daten verarbeitet, indem es sie in kleinere Einheiten, sogenannte Token, aufteilt, wodurch das Modell Muster erkennen und neue Inhalte generieren kann, anstatt Text direkt zu replizieren.
Joseph Gratz, ein OpenAI-Anwalt, sagte, dass das Wiederauswürgen ganzer Artikel „nicht das ist, wofür es entwickelt wurde und nicht, was es tut“, wenn es um die Funktionsweise von ChatGPT geht, und argumentierte, dass Ausgaben, die urheberrechtlich geschütztem Material ähneln, oft nur vorkommen nachdem bestimmte Benutzeraufforderungen absichtlich versucht haben, solche Reaktionen hervorzurufen.
Das Rechtsteam von Microsoft unterstützte diese Behauptungen und zog Parallelen zwischen KI-Training und früheren technologischen Innovationen wie Videorecordern und Kopiergeräten. die zunächst angefochten, aber letztendlich als rechtmäßig angesehen wurden.
Sie argumentierten, dass eine faire Nutzung die Entwicklung von Technologien ermögliche, die der Gesellschaft zugutekämen, ohne die Rechte der Ersteller von Inhalten zu gefährden. „Das Urheberrecht stellt für das LLM kein größeres Hindernis dar, als es für den Videorecorder (oder das Klavier, den Kopierer, den PC, das Internet oder die Suchmaschine) war“, erklärte das Unternehmen in seinen Gerichtsakten.
Verleger behaupten finanziellen und ethischen Schaden
Die Verlage argumentieren, dass die unlizenzierte Nutzung ihrer Inhalte nicht nur gegen das Urheberrecht verstößt, sondern auch ihre finanzielle Nachhaltigkeit gefährdet KI-Tools fassen Artikel zusammen oder geben Produktempfehlungen, die die Paywalls der Verlage umgehen.
Laut der Times hat Microsofts Bing Chat – jetzt umbenannt in Copilot – potenzielle Leser von seinem Affiliate-Plattform Wirecutter, wodurch Traffic und Einnahmen reduziert werden.
Steven Lieberman, Vertreter der New York Daily News, kritisierte die Technologie die Abhängigkeit von Unternehmen von Quellen wie Common Crawl, einer gemeinnützigen Organisation, die Webdaten für die öffentliche Nutzung sammelt. Er beschrieb die Praxis als „Trittbrettfahren“ auf der Arbeit von Journalisten und Verlegern, die es KI-Unternehmen ermöglicht, Inhalte zu monetarisieren, die sie nicht erstellt oder lizenziert haben.
Während OpenAI argumentiert, dass dieser Ansatz den Zugang zu Daten demokratisiert, weisen Kritiker darauf hin weisen darauf hin, dass es urheberrechtlich geschützte Materialien ohne ordnungsgemäße Überprüfung enthält.
Erschwerend kommt hinzu, dass OpenAI Retrieval-Augmented Generation (RAG) verwendet, eine Methode, die Echtzeitinformationen integriert vom Web in KI-generierte Antworten. Obwohl diese Technik die Relevanz und Genauigkeit der Ergebnisse erhöht, wirft sie Fragen darüber auf, wie auf Inhalte von Herausgebern zugegriffen und diese reproduziert werden.
Hohes Risiko: Mögliche Zerstörung von Datensätzen Finanzielle Strafen
Die Klage fordert Schadensersatz in Milliardenhöhe und fordert die Vernichtung von Datensätzen, die nicht autorisiertes Material enthalten. Ein solches Urteil könnte weitreichende Auswirkungen auf OpenAI und Microsoft haben und sie dazu zwingen bauen ihre KI-Systeme nur mit lizenzierten oder gemeinfreien Inhalten neu auf.
Das Bundesurheberrecht sieht Geldstrafen von bis zu 150.000 US-Dollar für jeden Fall einer vorsätzlichen Verletzung vor., eine Zahl, die angesichts der Menge der betroffenen Daten dramatisch ansteigen könnte.
Verzögertes Media Manager Tool und Branchenreaktionen
Die Klage auch unterstreicht die Frustration über die verzögerte Einführung seines Media Manager-Tools durch OpenAI, das ursprünglich im Mai 2024 versprochen wurde, um den Erstellern mehr Kontrolle darüber zu geben, wie ihre Inhalte in KI-Trainingsdatensätzen verwendet werden.
Kritiker argumentieren, dass dieses Versäumnis kleineren Verlagen und unabhängigen Urhebern begrenzte Möglichkeiten zum Schutz ihres geistigen Eigentums lässt.
Während große Verlage wie TIME, The New Yorker, Vogue, Vanity Fair, Bon Appetit und Wired sowie mehr als 2oo andere Publikationen Lizenzvereinbarungen mit OpenAI abgeschlossen haben, fehlen vielen kleineren Anbietern die Ressourcen, um ähnliche Verträge auszuhandeln.
Die Branche insgesamt ist nach wie vor gespalten. Einige Unternehmen gehen Partnerschaften ein, um Inhalte für die KI-Entwicklung zu lizenzieren, während andere Rechtsstreitigkeiten verfolgen. In Kanada hat eine Koalition von Verlagen Klagen eingereicht, in denen sie OpenAI des „weit verbreiteten Scrapings“ beschuldigen, und prominente Autoren wie Michael Chabon haben ähnliche Bedenken geäußert.
Richter entscheidet über Entlassungsantrag
Richter Sidney Stein, der während der Anhörung großes Verständnis für die technischen Fragen zeigte, muss noch über den Antrag der Angeklagten auf Abweisung entscheiden.
Stein hat dies anerkannt Komplexität des Falles und erklärte, dass faire Nutzung wahrscheinlich eine entscheidende Rolle bei seiner Entscheidung spielen würde. Das Ergebnis könnte einen entscheidenden Präzedenzfall für die Interaktion generativer KI-Systeme mit urheberrechtlich geschützten Materialien und die Verpflichtungen von Entwicklern gegenüber Inhaltserstellern schaffen.
Im weiteren Verlauf des Gerichtsverfahrens gehen die Auswirkungen weit über OpenAI und Microsoft hinaus. Dieser Fall hat das Potenzial, die Zukunft der generativen KI zu prägen und Innovation mit den Rechten von Herausgebern und Urhebern in Einklang zu bringen.