Microsoft og OpenAI, som står overfor påstander om brudd på opphavsrett fra The New York Times og andre utgivere, har hevdet i føderal domstol på tirsdag at deres bruk av offentlig tilgjengelige nyhetsartikler for å trene store språkmodeller (LLMs) er lovlig under rettferdig bruk doktrine.
søksmålet , arkivert i desember 2023 og nå konsolidert med lignende påstander fra The New York Daily News og Center for Investigative Reporting, hevder at AI-systemer som ChatGPT og Microsoft Copilot har utnyttet opphavsrettsbeskyttet materiale uten autorisasjon, noe som undergraver utgivernes inntekter og immaterielle rettigheter.
Saksøkerne hevder at disse AI-modellene, trent på datasett som inneholder millioner av artikler, kan reprodusere eller oppsummere innholdet på måter som erstatter for de originale verkene.”Dette handler om å erstatte innholdet, ikke å transformere det,”sa Ian Crosby, som representerer The New York Times.
Crosby advarte om at slik praksis kan lede mellom 30 % og 50 % av nettbasert nyhetstrafikk bort fra utgivernes nettsteder.
Fair Use Doctrine at the Heart of the Case
OpenAIs forsvar er avhengig av argumentet om at deres bruk av nyhetsdata er transformerende og derfor beskyttet av doktrinen om rettferdig bruk Joseph Gratz, en advokat for OpenAI, forklarte til dommer Sidney Stein at ChatGPT behandler data ved å dele dem opp i mindre enheter kalt tokens. å la modellen gjenkjenne mønstre og generere nytt innhold i stedet for å kopiere tekst direkte
Joseph Gratz, en OpenAI-advokat, sa at det å gjengi hele artikler”ikke er det den er designet for å gjøre og ikke det den gjør”når. det kommer til hvordan ChatGPT fungerer, og argumenterer for at utdata som ligner opphavsrettsbeskyttet materiale ofte bare skjer etter at spesifikke brukeroppfordringer bevisst forsøker å fremkalle slike svar.
Microsofts juridiske team støttet disse påstandene, og trakk paralleller mellom AI-opplæring og tidligere teknologiske innovasjoner som videospillere og kopimaskiner, som opprinnelig ble bestridt, men til slutt ansett som lovlige.
De hevdet at rettferdig bruk gir mulighet for utvikling av teknologier som gagner samfunnet uten å kompromittere rettighetene til innholdsskapere. «Lov om opphavsrett er ikke mer en hindring for LLM enn det var for videospilleren (eller spillerens piano, kopimaskin, personlig datamaskin, internett eller søkemotor),» uttalte selskapet i sine saksdokumenter.
Utgivere hevder økonomisk og etisk skade
Utgiverne hevder at ulisensiert bruk av innholdet deres ikke bare bryter opphavsrettsloven, men også truer deres økonomiske bærekraft Søksmålet fremhever spesifikke eksempler der AI-verktøy oppsummerer artikler eller gir produktanbefalinger som omgår utgiveres betalingsmurer
I følge Times har Microsofts Bing Chat – nå omdirigert til Copilot – omdirigert potensielle lesere. tilknyttede plattform Wirecutter, reduserer trafikk og inntekter.
Steven Lieberman, som representerer The New York Daily News, kritiserte teknologiselskapenes avhengighet av kilder som Common Crawl , en ideell organisasjon som samler nettdata for offentlig bruk. Han beskrev praksisen som «gratiskjøring» på arbeidet til journalister og utgivere, noe som gjør det mulig for AI-selskaper å tjene penger på innhold de ikke har laget eller lisensiert.
Mens OpenAI hevder at denne tilnærmingen demokratiserer tilgang til data, peker kritikere på ut at det inkluderer opphavsrettsbeskyttet materiale uten skikkelig undersøkelse
Forklaring på problemet er OpenAIs bruk av gjenvinningsutvidet generasjon (RAG), en metode. som integrerer sanntidsinformasjon fra nettet i AI-genererte svar Selv om denne teknikken øker relevansen og nøyaktigheten til utdataene, reiser den spørsmål om hvordan publisistenes innhold er tilgjengelig og reprodusert.
Høy. Stakes: Potensial Dataset Destruction and Financial Penalty
Søkemålet krever milliarder av dollar i erstatning og krever ødeleggelse av datasett som inneholder uautorisert materiale En slik avgjørelse kan ha dype implikasjoner for OpenAI og Microsoft, og tvinge dem til å gjenoppbygge AI-systemene sine kun ved å bruke lisensiert eller offentlig innhold.
Federal lov om opphavsrett tillater bøter på opptil $150 000 for hvert tilfelle av forsettlig krenkelse
a>, et tall som kan eskalere dramatisk gitt mengden av data som er involvert.
Forsinkede mediebehandlerverktøy og bransjesvar
Søksmålet understreker også frustrasjoner over OpenAIs forsinkede utrulling av Media Manager-verktøyet, som opprinnelig ble lovet i mai 2024 å gi skapere større kontroll over hvordan innholdet deres brukes i AI-treningsdatasett.
Kritikere hevder at denne feilen gir mindre utgivere og uavhengige skapere begrensede muligheter for å beskytte deres intellektuelle eiendom.
Mens store utgivere som TIME, The New Yorker, Vogue, Vanity Fair, Bon Appetit og Wired og mer enn 2oo andre publikasjoner har sikret lisensavtaler med OpenAI, mangler mange mindre aktører ressursene til å forhandle lignende avtaler.
Den bredere industrien er fortsatt delt, med noen selskaper som omfavner partnerskap for å lisensiere innhold for AI-utvikling, mens andre driver med rettssaker. I Canada har en koalisjon av utgivere anlagt søksmål som anklager OpenAI for «utbredt skraping», og fremtredende forfattere som Michael Chabon har gitt uttrykk for lignende bekymringer.
Dommer skal avgjøre om avskjedsforslag<./h3>
Dommer Sidney Stein, som viste en sterk forståelse av de tekniske problemene under høringen, har ennå ikke tatt stilling til de tiltaltes forslag om å avvise
Stein erkjente kompleksiteten i saken, og uttalte at rimelig bruk sannsynligvis ville spille en sentral rolle i avgjørelsen hans. av utviklere mot innholdsskapere.
Når rettssaken fortsetter, strekker implikasjonene seg langt utover OpenAI og Microsoft. Denne saken har potensial til å forme fremtiden for generative AI, balanserer innovasjon med rettighetene til utgivere og skapere.