Microsoft en OpenAI, geconfronteerd met beschuldigingen van schending van het auteursrecht door The New York Times en andere uitgevers, hebben dinsdag voor de federale rechtbank betoogd dat hun gebruik van openbaar beschikbare nieuwsartikelen om grote taalmodellen (LLM’s) te trainen legaal is onder het eerlijke gebruik leer.
De rechtszaak , ingediend in december 2023 en nu geconsolideerd met soortgelijke claims van The New York Daily News en het Center for Investigative Reporting, beweert dat AI-systemen zoals ChatGPT en Microsoft Copilot gebruik hebben gemaakt van auteursrechtelijk beschermd materiaal zonder toestemming, waardoor de inkomsten van uitgevers en intellectuele eigendomsrechten worden ondermijnd.
De eisers beweren dat deze AI-modellen, getraind op datasets met miljoenen artikelen, hun inhoud kunnen reproduceren of samenvatten op manieren die de originele werken vervangen. “Dit gaat over het vervangen van de inhoud, niet over het transformeren ervan”, zegt Ian Crosby, vertegenwoordiger van The New York Times.
Crosby waarschuwde dat dergelijke praktijken tussen de 30% en 50% van het online nieuwsverkeer van de websites van uitgevers zouden kunnen wegleiden.
De Fair Use-doctrine vormt de kern van de zaak
De verdediging van OpenAI berust op het argument dat hun gebruik van nieuwsgegevens transformerend is en daarom wordt beschermd door de Fair Use-doctrine Gratz, een advocaat van OpenAI, legde rechter Sidney Stein uit dat ChatGPT gegevens verwerkt door deze op te delen in kleinere eenheden, tokens genaamd, waardoor het model patronen kan herkennen en nieuwe inhoud kan genereren in plaats van tekst direct te repliceren Gratz, een OpenAI-advocaat, zei dat het opnieuw publiceren van hele artikelen “niet is waarvoor het is ontworpen en niet wat het doet” als het gaat om de manier waarop ChatGPT werkt, met het argument dat resultaten die lijken op auteursrechtelijk beschermd materiaal vaak pas verschijnen nadat specifieke gebruikersprompts opzettelijk hebben geprobeerd deze te ontlokken dergelijke reacties.
Het juridische team van Microsoft ondersteunde deze beweringen en trok parallellen tussen AI-training en eerdere technologische innovaties zoals videorecorders en kopieermachines, die aanvankelijk werden betwist maar uiteindelijk als wettig.
Ze voerden aan dat eerlijk gebruik de ontwikkeling mogelijk maakt van technologieën die de samenleving ten goede komen, zonder de rechten van makers van inhoud in gevaar te brengen. “Het auteursrecht vormt net zo min een obstakel voor de LLM als voor de videorecorder (of de pianola, het kopieerapparaat, de pc, het internet of de zoekmachine)”, aldus het bedrijf in zijn rechtszaken.
Uitgevers claimen financiële en ethische schade
De uitgevers beweren dat het gebruik zonder licentie van hun inhoud niet alleen in strijd is met de auteursrechtwetgeving, maar ook hun financiële duurzaamheid in gevaar brengt AI tools vatten artikelen samen of geven productaanbevelingen die de betaalmuren van uitgevers omzeilen.
Volgens de Times heeft Bing Chat van Microsoft, nu omgedoopt tot Copilot, potentiële lezers weggeleid van de affiliatieplatform Wirecutter, waardoor het verkeer en de inkomsten afnemen.
Steven Lieberman, vertegenwoordiger van The New York Daily News, bekritiseerde de afhankelijkheid van de technologiebedrijven op bronnen als Common Crawl, een non-profitorganisatie die webgegevens verzamelt voor openbaar gebruik. Hij beschreef deze praktijk als ‘meeliften’ op het werk van journalisten en uitgevers, waardoor AI-bedrijven geld kunnen verdienen met inhoud die ze niet hebben gemaakt of waarvoor ze geen licentie hebben verleend.
Terwijl OpenAI beweert dat deze aanpak de toegang tot data democratiseert, wijzen critici erop
Het probleem wordt nog verergerd door het gebruik van Retrieval-Augmented Generation (RAG) door OpenAI, een methode die realtime informatie van internet integreert. in door AI gegenereerde antwoorden Hoewel deze techniek de relevantie en nauwkeurigheid van de resultaten verbetert, roept het vragen op over de manier waarop de inhoud van uitgevers wordt benaderd en gereproduceerd.
Hoge inzet: mogelijke vernietiging van datasets en financiële boetes
De rechtszaak eist miljarden dollars aan schadevergoeding en roept op tot de vernietiging van datasets die ongeautoriseerd materiaal bevatten. Een dergelijke uitspraak zou diepgaande gevolgen kunnen hebben voor OpenAI en Microsoft, waardoor ze gedwongen zouden worden hun AI-systemen opnieuw op te bouwen met behulp van alleen gelicentieerd of inhoud uit het publieke domein.
De federale auteursrechtwet staat boetes toe van maximaal $ 150.000 voor elk geval van opzettelijke inbreuk
a>, een cijfer dat dramatisch zou kunnen escaleren gezien de hoeveelheid data die ermee gemoeid is.
Vertraagde reacties op de Media Manager Tool en de industrie
De rechtszaak onderstreept ook frustraties over de vertraagde uitrol door OpenAI van zijn Media Manager-tool, aanvankelijk beloofd in mei 2024 om makers meer controle te geven over hoe hun inhoud wordt gebruikt in AI-trainingsdatasets.
Critici beweren dat dit falen kleinere uitgevers en onafhankelijke makers beperkte mogelijkheden geeft om hun intellectuele eigendom te beschermen.
Terwijl grote uitgevers als TIME, The New Yorker, Vogue, Vanity Fair, Bon Appetit en Wired en meer dan twintig andere publicaties licentieovereenkomsten met OpenAI hebben afgesloten, missen veel kleinere spelers de middelen om soortgelijke deals te sluiten.
De bredere sector blijft verdeeld, waarbij sommige bedrijven partnerschappen omarmen om content in licentie te geven voor AI-ontwikkeling, terwijl andere bedrijven een rechtszaak aanspannen. In Canada heeft een coalitie van uitgevers rechtszaken aangespannen waarin OpenAI wordt beschuldigd van “wijdverbreide scraping”, en prominente auteurs als Michael Chabon hebben soortgelijke zorgen geuit.
Rechter die uitspraak doet over het ontslagverzoek
Rechter Sidney Stein, die tijdens de hoorzitting blijk gaf van een goed begrip van de technische kwesties, moet nog uitspraak doen over het verzoek tot afwijzing van de beklaagden.
Stein erkende de complexiteit van de zaak In dit geval zou eerlijk gebruik waarschijnlijk een cruciale rol spelen in zijn beslissing. De uitkomst zou een cruciaal precedent kunnen scheppen voor de manier waarop generatieve AI-systemen omgaan met auteursrechtelijk beschermd materiaal en de verplichtingen van ontwikkelaars ten opzichte van makers van inhoud.
Als voorbeeld. juridische procedures voortduren, de implicaties reiken veel verder dan OpenAI en Microsoft. Deze zaak heeft het potentieel om de toekomst van generatieve AI vorm te geven, waarbij innovatie in evenwicht wordt gebracht met de rechten van uitgevers en makers.