Ang Microsoft at OpenAI, na nahaharap sa mga paratang ng paglabag sa copyright mula sa The New York Times at iba pang mga publisher, ay nakipagtalo sa pederal na hukuman noong Martes na ang kanilang paggamit ng mga pampublikong magagamit na artikulo ng balita upang sanayin ang malalaking modelo ng wika (LLMs) ay ayon sa batas sa ilalim ng patas na paggamit doktrina.
Ang paghahabla , na isinampa noong Disyembre 2023 at ngayon ay pinagsama-sama sa mga katulad na claim mula sa The New York Daily News at sa Center for Investigative Reporting, ay sinasabing ang mga AI system tulad ng ChatGPT at Microsoft Copilot ay may gumamit ng naka-copyright na materyal nang walang awtorisasyon, pinapahina ang mga kita ng mga publisher at mga karapatan sa intelektwal na ari-arian.
Iginiit ng mga nagsasakdal na ang mga modelong ito ng AI, na sinanay sa mga dataset na naglalaman ng milyun-milyong artikulo, ay maaaring magparami o magbuod ng kanilang nilalaman sa mga paraan na kahalili para sa orihinal na mga gawa.”Ito ay tungkol sa pagpapalit ng nilalaman, hindi sa pagbabago nito,”sabi ni Ian Crosby, na kumakatawan sa The New York Times.
Nagbabala si Crosby na ang gayong mga kagawian ay maaaring maglihis sa pagitan ng 30% at 50% ng trapiko ng online na balita mula sa mga website ng mga publisher.
Doktrina ng Patas na Paggamit sa Puso ng Kaso
Ang pagtatanggol ng OpenAI ay nakasalalay sa argumento na ang kanilang paggamit ng data ng balita ay nagbabago at samakatuwid protektado ng doktrina ng patas na paggamit, si Joseph Gratz, isang abogado para sa OpenAI, ay ipinaliwanag kay Judge Sidney Stein na ang ChatGPT ay nagpoproseso ng data sa pamamagitan ng paghahati nito sa mas maliliit na unit na tinatawag na mga token, na nagpapahintulot sa modelo na makilala ang mga pattern at bumuo ng bagong nilalaman sa halip na direktang kopyahin ang teksto
Sinabi ni Joseph Gratz, isang abogado ng OpenAI, na ang pag-regurgitate ng buong mga artikulo ay”hindi kung ano ang idinisenyo upang gawin at hindi kung ano ang ginagawa nito”pagdating sa kung paano gumagana ang ChatGPT. nangangatwiran na ang mga output na kahawig ng naka-copyright na materyal ay kadalasang nangyayari lamang pagkatapos na sadyang subukan ng mga partikular na user na mag-prompt na makakuha ng mga ganoong tugon.
Sinuportahan ng legal team ng Microsoft ang mga paghahabol na ito, na gumuhit mga parallel sa pagitan ng AI training at mga naunang teknolohikal na inobasyon gaya ng mga VCR at copy machine, na sa una ay pinagtatalunan ngunit sa huli ay itinuring na ayon sa batas.
Nagtalo sila na ang patas na paggamit ay nagbibigay-daan para sa pagbuo ng mga teknolohiyang nakikinabang sa lipunan nang hindi nakompromiso ang mga karapatan ng mga tagalikha ng nilalaman.”Ang batas sa copyright ay hindi na isang balakid sa LLM kaysa sa VCR (o sa player ng piano, copy machine, personal computer, internet, o search engine),”sabi ng kumpanya sa mga paghaharap nito sa korte.
Inaangkin ng Mga Publisher ang Pinansyal at Etikal na Kapinsalaan
Nangatuwiran ang mga publisher na ang walang lisensyang paggamit ng kanilang nilalaman ay hindi lamang lumalabag sa batas sa copyright ngunit nagbabanta din sa kanilang pananalapi Sustainability. Itinatampok ng demanda ang mga partikular na halimbawa kung saan ang mga tool ng AI ay nagbubuod ng mga artikulo o nagbibigay ng mga rekomendasyon sa produkto na lumalampas sa mga paywall ng mga publisher
Ayon sa Times, ang Bing Chat ng Microsoft—na binago na ngayon bilang Copilot—ay nag-redirect ng mga potensyal na mambabasa mula sa mga ito. affiliate platform na Wirecutter, binabawasan ang trapiko at kita.
Si Steven Lieberman, na kumakatawan sa The New York Daily News, ay pinuna ang pagtitiwala ng mga tech na kumpanya sa mga mapagkukunan tulad ng Common Crawl , isang nonprofit na organisasyon na pinagsasama-sama ang data sa web para sa pampublikong paggamit. Inilarawan niya ang kasanayan bilang”libreng pagsakay”sa gawain ng mga mamamahayag at publisher, na nagbibigay-daan sa mga kumpanya ng AI na pagkakitaan ang nilalaman na hindi nila nilikha o lisensyado.
Habang ang OpenAI ay nangangatuwiran na ang diskarteng ito ay nagde-demokratize ng access sa data, itinuturo ng mga kritiko out na kasama nito ang mga naka-copyright na materyales nang walang wastong pag-vetting
Ang nakakadagdag sa isyu ay ang paggamit ng OpenAI ng retrieval-augmented generation (RAG), isang paraan na. isinasama ang real-time na impormasyon mula sa web sa mga tugon na binuo ng AI Bagama’t pinahuhusay ng diskarteng ito ang kaugnayan at katumpakan ng mga output, nagdudulot ito ng mga tanong tungkol sa kung paano ina-access at ginagawa ang nilalaman ng mga publisher.
Mataas na Stakes.: Potensyal na Pagkasira ng Dataset at Pinansyal na Parusa
Hinihingi ng demanda ang bilyun-bilyong dolyar na mga pinsala at humihiling ng pagkasira ng mga dataset na naglalaman ng hindi awtorisadong mga materyales.
Ang pederal na batas sa copyright ay nagbibigay-daan sa mga multa na hanggang $150,000 para sa bawat pagkakataon ng sadyang paglabag
a>, isang figure na maaaring tumaas nang husto dahil sa dami ng data na kasangkot.
Naantalang Media Manager Tool at Mga Tugon sa Industriya
Ang binibigyang-diin din ng demanda ang mga pagkabigo sa naantalang paglulunsad ng OpenAI ng tool nito sa Media Manager, na una nang ipinangako noong Mayo 2024 na bigyan ang mga creator ng higit na kontrol sa kung paano ginagamit ang kanilang content sa mga dataset ng pagsasanay ng AI.
Nangatuwiran ang mga kritiko na ang kabiguan na ito ay nag-iiwan sa mga maliliit na publisher at mga independiyenteng tagalikha ng limitadong mga opsyon para sa pagprotekta sa kanilang intelektwal na ari-arian.
Habang ang mga pangunahing publisher tulad ng TIME, The New Yorker, Vogue, Vanity Fair, Bon Appetit, at Wired at higit sa 2oo iba pang mga publikasyon ay nakakuha ng mga kasunduan sa paglilisensya sa OpenAI, maraming mas maliliit na manlalaro ang kulang sa mga mapagkukunan upang makipag-ayos ng mga katulad na deal.
Nananatiling hati ang mas malawak na industriya, kung saan ang ilang kumpanya ay tinatanggap ang mga pakikipagsosyo upang bigyan ng lisensya ang content para sa pagpapaunlad ng AI, habang ang iba ay nagpapatuloy sa paglilitis. Sa Canada, nagsampa ng mga demanda ang isang koalisyon ng mga publisher na nag-aakusa sa OpenAI ng”malawakang pag-scrape,”at ang mga kilalang may-akda tulad ni Michael Chabon ay nagpahayag ng mga katulad na alalahanin.
Hukom sa Panuntunan sa Mosyon ng Pagtanggal
Si Judge Sidney Stein, na nagpakita ng matibay na pag-unawa sa mga teknikal na isyu sa panahon ng pagdinig, ay hindi pa nakapagpapasya sa mosyon ng mga nasasakdal na i-dismiss.
Kinilala ni Stein ang pagiging kumplikado ng kaso, na nagsasaad na ang patas na paggamit ay malamang na maglalaro ng isang mahalagang papel sa kanyang desisyon. patungo sa mga tagalikha ng nilalaman.
Habang nagpapatuloy ang mga legal na paglilitis, ang mga implikasyon ay umaabot nang higit pa sa OpenAI at Microsoft Ang kasong ito ay may potensyal na hubugin ang hinaharap ng generative AI. pagbabalanse ng pagbabago sa mga karapatan ng mga publisher at creator.