Ang Meta Platforms ay nasa ilalim ng matinding legal na pagsisiyasat para sa diumano’y paggamit nito ng mga pirated na materyales sa pagsasanay sa mga modelong Llama AI nito. Ang kumpanya, na pinamumunuan ni CEO Mark Zuckerberg, ay inakusahan ng paggamit ng mga hindi awtorisadong dataset mula sa LibGen, isang kilalang pinagmumulan ng mga pirated na aklat at mga artikulong pang-akademiko.
Mga bagong inihain na dokumento para sa isang kaso na inihain sa Korte ng Distrito ng U.S. para sa Hilagang Distrito ng California (dokumento 1, dokumento 2) na direktang inaprubahan ni Zuckerberg ang dataset gamitin, sa kabila ng panloob na mga babala tungkol sa pagiging legal nito.
Ang mga kilalang may-akda, kabilang sina Sarah Silverman at Ta-Nehisi Coates, ay kabilang sa ang mga nagsasakdal, na nangangatuwiran na ang mga aksyon ng Meta ay lumalabag sa batas sa copyright at sa Digital Millennium Copyright Act (DMCA).
Sila rin ay nag-aakala ng mga paglabag sa California’s Comprehensive Computer Data Access and Fraud Act (CDAFA), na nagtuturo sa mga aktibidad sa pag-torrent at metadata stripping na nagtatago sa mga pinagmulan ng data.
Ang Torrents ay isang peer-to-peer na teknolohiya sa pagbabahagi ng file na nagbibigay-daan sa mga user na mag-download ng mga file sa mas maliliit na segment mula sa maraming pinagmulan. Bagama’t mahusay para sa pagbabahagi ng malalaking dataset, ito ay kadalasang ginagamit para sa pamamahagi ng pirated na nilalaman, dahil ito ay desentralisado at mahirap subaybayan.
Pag-apruba Sa kabila ng Panloob na Pagtutol
Ang mga panloob na dokumento at pagdedeposito ay nagpapakita ng nakakagambalang pattern ng paggawa ng desisyon sa Meta. Ang mga inhinyero ay nagpahayag ng mga alalahanin tungkol sa paggamit ng LibGen, na may isa na nagsasabing,”Ang pag-torrent mula sa isang [Meta-owned] corporate laptop ay hindi tama.”
Ang mga pagtutol na ito ay itinaas kay Zuckerberg, na sa huli ay inaprubahan ang dataset Nakumpirma ang isang panloob na memo,”Pagkatapos ng pagdami sa MZ [Mark Zuckerberg], naaprubahan ang AI team ng Meta na gamitin ang LibGen.”
Naganap ang pag-apruba na ito bilang Hinangad ng Meta na pahusayin ang mga kakayahan ng mga modelong Llama nito, isang kritikal na bahagi ng diskarte nito upang makipagkumpitensya sa mabilis na umuunlad na sektor ng AI. Ang LibGen dataset ay naiulat na ginamit para sa parehong pagsasanay at pag-fine-tune ng mga modelo, na nagbibigay ng malakihang data na kinakailangan upang bumuo ng mga kakayahan sa pagpoproseso ng wika.
Torrent at Metadata Removal
Ang kaso ay inaakusahan ang Meta ng paggamit ng mga protocol sa pag-stream upang ma-access at maipamahagi ang dataset ng LibGen. Ang Torrenting ay likas na nagsasangkot ng”seeding,”o pagbabahagi ng mga bahagi ng na-download na nilalaman sa iba pang mga user.
Ayon sa testimonya, ang mga inhinyero ng Meta ay nag-configure ng mga setting ng pag-torrent upang mabawasan ang visibility. Gaya ng nabanggit sa paghaharap ng korte,”Si Bashlykov ay nag-configure ng [torrent] ] mga setting upang ang pinakamaliit na halaga ng seeding ay maaaring mangyari,”isang pagtatangka upang maiwasan ang pagtuklas habang nakikilahok pa rin sa network ng pagbabahagi ng file.
Sa bilang karagdagan sa pag-torrent, iniulat na tinanggal ng Meta ang Copyright Management Impormasyon (CMI) mula sa mga dataset ng pagsasanay. Kasama sa CMI ang metadata na naka-attach sa mga naka-copyright na gawa na kinabibilangan ng mga detalye gaya ng pangalan ng may-akda, petsa ng publikasyon, at impormasyon sa paglilisensya. Ang pag-alis ng CMI ay labag sa batas sa ilalim ng DMCA kung pinapadali nito ang paglabag sa copyright.
Ang mga nagsasakdal ay nangangatuwiran na ang pag-aalis na ito ay isang sadyang pagkilos upang itago ang mga pinagmulan ng dataset at pigilan ang mga modelong Llama sa paglabas ng makikilalang naka-copyright na nilalaman.
Tulad ng isinasaad ng demanda, “Inalis ng Meta ang CMI hindi lamang para sa mga layunin ng pagsasanay kundi upang itago din ang paglabag sa copyright nito, dahil ang pagtanggal ng mga naka-copyright na gawa ng CMI ay humahadlang kay Llama na maglabas ng impormasyon sa copyright na maaaring alertuhan ang mga user ng Llama at ang publiko na Paglabag ng Meta.”
Si Yann LeCun, ang punong AI scientist ng Meta, noong nakaraang taon ay nagbigay ng pahiwatig kung paano iniisip ng Meta ang tungkol sa naka-copyright na materyal nang siya ay nagmungkahi sa X (dating Twitter) na dapat gawin ng mga may-akda ng libro na malayang magagamit ang kanilang mga gawa.
Kaunti lang ng mga may-akda ng libro ang kumikita ng malaking pera mula sa mga benta ng libro.
Mukhang iminumungkahi nito na karamihan sa mga aklat dapat ay malayang magagamit para sa pag-download.
Ang nawawalang kita para sa mga may-akda ay magiging maliit, at ang mga benepisyo sa lipunan ay malaki sa paghahambing https://t.co/4ObkW1tm85— Yann LeCun (@ylecun) Enero 1, 2024
Mga Legal at Etikal na Implikasyon
Ang mga legal na argumento laban sa Meta ay kinabibilangan ng mga claim sa ilalim ng DMCA para sa pag-alis ng CMI at CDAFA para sa pag-access at paggamit ng pirated data nang walang pahintulot. Ang mga nagsasakdal ay nagsasaad na ang pag-stream ng Meta at pag-aalis ng metadata ay mahalaga sa pagtatago ng paggamit nito ng mga naka-copyright na materyales.
Si Hukom Vince Chhabria, na nangangasiwa sa kaso, ay pinuna ang mga pagtatangka ni Meta na i-redact ang malaking bahagi ng paghaharap, na binanggit, “Malinaw na ang kahilingan sa pag-seal ng Meta ay hindi idinisenyo upang protektahan laban sa pagsisiwalat ng sensitibong impormasyon ng negosyo… Sa halip , ito ay idinisenyo upang maiwasan ang negatibong publisidad.”
Ang mga paratang laban sa Meta ay bahagi ng isang mas malawak na pag-uusap tungkol sa kung paano sinasanay ang mga modelo ng AI. Ang malalaking modelo ng wika tulad ng Llama ay kadalasang umaasa sa napakalaking dataset na maaaring may kasamang naka-copyright na materyal
Habang ang mga kumpanyang tulad ng Meta ay nangangatuwiran na ang naturang paggamit ay nasa ilalim ng patas na paggamit, ang mga kritiko ay iginigiit na nilalabag nito ang mga karapatan ng mga creator at itinatampok ang pangangailangan. para sa mas malinaw na legal na mga balangkas sa pagbuo ng AI.
Malawak na Konteksto ng Industriya
Ang kasong ito ay hindi isang nakahiwalay na insidente. Ang mabilis na pag-unlad ng generative AI ay humantong sa ilang mga demanda laban sa mga pangunahing kumpanya ng teknolohiya, kung saan ang mga tagalikha at may hawak ng copyright ay nagtatanong sa legalidad at etika ng paggamit ng kanilang mga gawa nang walang pahintulot.
Ang kaso ng Meta ay nagpapakita ng mas malawak na tensyon sa pagitan ng teknolohikal na pagbabago at mga batas sa intelektwal na ari-arian. Binibigyang-liwanag din ng demanda ang mga pagpapasya sa pagpapatakbo sa loob ng Meta, kung saan ang pagtulak na manatiling mapagkumpitensya sa AI ay tila higit na higit sa etikal at legal na mga pagsasaalang-alang.
Ang mga gawi ng Meta ay naglalabas ng mga tanong tungkol sa kung paano binabalanse ng mga kumpanya ang pagbabago sa pagsunod at pananagutan. Ang kaso ay maaaring magtakda ng precedent para sa kung paano pinangangasiwaan ng mga korte ang paggamit ng naka-copyright na materyal sa pagsasanay sa AI, na posibleng makaimpluwensya sa mga regulasyon at pamantayan ng industriya.