Meta Platforms steht wegen der angeblichen Verwendung von Raubkopien beim Training seiner Llama-KI-Modelle unter intensiver rechtlicher Prüfung. Dem von CEO Mark Zuckerberg geführten Unternehmen wird vorgeworfen, nicht autorisierte Datensätze von LibGen, einer bekannten Quelle für Raubkopien von Büchern, verwendet zu haben und wissenschaftliche Artikel.
Neu eingereichte Dokumente für eine Klage, die beim US-Bezirksgericht für den nördlichen Bezirk von Kalifornien eingereicht wurde (Dokument 1, Dokument 2) behaupten, dass Zuckerberg die Datensätze direkt genehmigt hat Verwendung, trotz interner Warnungen hinsichtlich der Legalität.
Prominente Autoren, darunter Sarah Silverman und Ta-Nehisi Coates gehört zu den Klägern und argumentiert, dass Metas Handlungen gegen das Urheberrecht und den Digital Millennium Copyright Act (DMCA) verstoßen.
Sie behaupten auch Verstöße gegen Kaliforniens umfassender Computer Data Access and Fraud Act (CDAFA), der auf Torrenting-Aktivitäten und das Entfernen von Metadaten hinweist, die die Herkunft der Daten verschleierten.
Torrents sind eine Peer-to-Peer-Dateifreigabetechnologie, die es Benutzern ermöglicht, Dateien in kleineren Segmenten aus mehreren Quellen herunterzuladen. Obwohl es für die gemeinsame Nutzung großer Datenmengen effizient ist, wird es häufig für die Verbreitung von Raubkopien verwendet, da es dezentralisiert und schwer zu überwachen ist.
Verwandt: Meta gibt zu, australische Facebook-Benutzerdaten für KI genutzt zu haben Schulung ohne Zustimmung
Genehmigung trotz interner Einwände
Interne Dokumente und Aussagen offenbaren ein beunruhigendes Entscheidungsmuster bei Meta. Ingenieure äußerten Bedenken hinsichtlich der Verwendung von LibGen. Einer erklärte: „Torrenting von einem [Meta-eigenen] Unternehmens-Laptop aus fühlt sich nicht richtig an.“
Diese Einwände wurden an Zuckerberg weitergeleitet, der die Datensätze schließlich genehmigte Ein internes Memo bestätigte: „Nach der Eskalation an MZ [Mark Zuckerberg] wurde Metas KI-Team die Verwendung von LibGen genehmigt.“
Diese Genehmigung erfolgte, als Meta versuchte, die Fähigkeiten von zu verbessern seine Lama-Modelle, ein entscheidender Teil seiner Strategie, im schnell wachsenden KI-Sektor konkurrenzfähig zu sein. Berichten zufolge wurde der LibGen-Datensatz sowohl zum Training als auch zur Feinabstimmung der Modelle verwendet und lieferte die umfangreichen Daten, die für die Entwicklung von Sprachverarbeitungsfunktionen erforderlich sind.
Verwandt: Benutzer verlassen Facebook, Instagram, Threads nach Zuckerbergs Umkehrung der Faktenprüfung
Torrenting und Entfernung von Metadaten
Die Klage wirft Meta vor, Torrenting-Protokolle zu verwenden, um auf und zuzugreifen Verteilen Sie den LibGen-Datensatz. Torrenting beinhaltet von Natur aus das „Seeding“ oder das Teilen von Teilen heruntergeladener Inhalte mit anderen Benutzern.
Laut Zeugenaussagen haben Meta-Ingenieure Torrenting-Einstellungen konfiguriert, um die Sichtbarkeit zu minimieren. Wie in der Gerichtsakte erwähnt, „konfigurierte Bashlykov den [Torrent ]-Einstellungen, damit möglichst wenig Seeding auftreten kann“, ein Versuch, einer Erkennung zu entgehen, während man weiterhin am Filesharing-Netzwerk teilnimmt.
Zusätzlich zum Torrenting hat Meta Berichten zufolge entfernt Copyright Management Information (CMI) aus den Trainingsdatensätzen. CMI umfasst Metadaten, die an urheberrechtlich geschützte Werke angehängt sind und Details wie den Namen des Autors, das Veröffentlichungsdatum und Lizenzinformationen enthalten. Das Entfernen von CMI ist nach dem DMCA illegal, wenn es eine Urheberrechtsverletzung erleichtert.
Die Kläger argumentieren, dass diese Entfernung eine absichtliche Handlung war, um die Herkunft des Datensatzes zu verschleiern und die Llama-Modelle daran zu hindern, identifizierbare urheberrechtlich geschützte Inhalte auszugeben.
In der Klage heißt es: „Meta hat CMI nicht nur zu Schulungszwecken entfernt, sondern auch, um seine Urheberrechtsverletzung zu verbergen, da das Entfernen des CMI urheberrechtlich geschützter Werke Llama daran hindert, Urheberrechtsinformationen auszugeben, die Llama-Benutzer und die Öffentlichkeit darauf aufmerksam machen könnten.“ Metas Verstoß.“
Yann LeCun, Metas leitender KI-Wissenschaftler, gab letztes Jahr einen Hinweis darauf, wie Meta über urheberrechtlich geschütztes Material denkt, als er auf X (ehemals Twitter) vorschlug, dass Buchautoren dies tun sollten Machen Sie ihre Werke frei verfügbar.
Nur eine kleine Anzahl von Buchautoren verdienen nennenswertes Geld mit Buchverkäufen.
Dies scheint darauf hinzudeuten, dass die meisten Bücher frei zum Download verfügbar sein sollten.
Der Einnahmeverlust für Autoren wäre gering, der Nutzen für die Gesellschaft dagegen groß >— Yann LeCun (@ylecun) 1. Januar 2024
Rechtliche und ethische Implikationen
Die rechtlichen Argumente gegen Meta umfassen Ansprüche im Rahmen des DMCA zur Entfernung von CMI und CDAFA für den unbefugten Zugriff auf und die Verwendung von Raubkopien. Die Kläger behaupten, dass Metas Torrenting und die Entfernung von Metadaten wesentlich dazu beigetragen hätten, die Nutzung urheberrechtlich geschützter Materialien zu verschleiern.
Richter Vince Chhabria, der den Fall beaufsichtigte, kritisierte Metas Versuche, wesentliche Teile der Akte zu schwärzen, und stellte fest: „Es ist klar, dass Metas Versiegelungsantrag nicht dazu gedacht ist, vor der Offenlegung sensibler Geschäftsinformationen zu schützen … Vielmehr.“ , es soll negative Publizität vermeiden.“
Die Vorwürfe gegen Meta sind Teil einer umfassenderen Diskussion darüber, wie KI-Modelle trainiert werden. Große Sprachmodelle wie Llama stützen sich oft auf riesige Datensätze, die Folgendes umfassen können
Während Unternehmen wie Meta argumentieren, dass eine solche Nutzung unter die faire Nutzung fällt, behaupten Kritiker, dass sie die Rechte der Urheber verletzt und die Notwendigkeit klarerer rechtlicher Rahmenbedingungen für die KI-Entwicklung unterstreicht.
Breiterer Branchenkontext
Dieser Fall ist kein Einzelfall. Die rasante Entwicklung der generativen KI hat zu mehreren Klagen gegen große Technologieunternehmen mit Urhebern und Urheberrechtsinhabern geführt die Rechtmäßigkeit und Ethik der Nutzung ihrer Werke ohne Zustimmung in Frage stellen.
Metas Fall spiegelt eine umfassendere Spannung zwischen technologischer Innovation und Gesetzen zum Schutz des geistigen Eigentums wider. Die Klage wirft auch Licht auf betriebliche Entscheidungen innerhalb von Meta, bei denen das Bestreben, im Bereich der KI wettbewerbsfähig zu bleiben, offenbar ethische und rechtliche Erwägungen überwog.
Die Praktiken von Meta werfen Fragen darüber auf, wie Unternehmen Innovation mit Compliance und Verantwortlichkeit in Einklang bringen. Der Fall könnte einen Präzedenzfall dafür schaffen, wie Gerichte mit der Verwendung von urheberrechtlich geschütztem Material in der KI-Schulung umgehen und möglicherweise Vorschriften und Industriestandards beeinflussen.