Dosarul instanței dezvăluie modul în care Zuckerberg a aprobat utilizarea conținutului piratat pentru antrenarea AI a modelelor LLama

Meta Platforms se află sub un control juridic intens pentru presupusa utilizare a materialelor piratate în antrenarea modelelor Llama AI. Compania, condusă de CEO Mark Zuckerberg, este acuzată că folosește seturi de date neautorizate de la LibGen, o sursă binecunoscută de cărți piratate. și articole academice.

Documente nou depuse pentru un proces intentat la Tribunalul Districtual din SUA pentru Districtul de Nord al Californiei (documentul 1, documentul 2) susțin că Zuckerberg a aprobat direct setul de date utilizarea, în ciuda avertismentelor interne cu privire la legalitatea acesteia.

Autori proeminenți, inclusiv Sarah Silverman și Ta-Nehisi Coates se numără printre reclamanți, susținând că acțiunile lui Meta încalcă legea drepturilor de autor și Digital Millennium Copyright Act (DMCA).

De asemenea, aceștia susțin încălcări ale Comprehensive Computer Data Access and Fraud Act (CDAFA) din California, indicând activitățile de torrenting și eliminarea metadatelor care au ascuns originile datelor.

Torentele sunt o tehnologie de partajare de fișiere peer-to-peer care permite utilizatorilor să descarce fișiere în segmente mai mici din mai multe surse. Deși eficient pentru partajarea seturilor de date mari, este adesea folosit pentru distribuirea conținutului piratat, deoarece este descentralizat și dificil de monitorizat.

Aprobare în ciuda obiecțiilor interne

Documentele și depozițiile interne dezvăluie un model îngrijorător de luare a deciziilor la Meta. Inginerii și-au exprimat îngrijorarea cu privire la utilizarea LibGen, unul dintre ele afirmând: „Torrentul de pe un laptop corporativ [deținut de Meta] nu se simte bine.”

Aceste obiecții au fost transmise lui Zuckerberg, care în cele din urmă a aprobat setul de date. O notă internă a confirmat: „După escaladarea către MZ [Mark Zuckerberg], echipa AI a lui Meta a fost aprobată să utilizeze. LibGen.”

Această aprobare a avut loc în timp ce Meta a căutat să îmbunătățească capacitățile modelelor sale Llama, o parte critică a strategiei sale de a concura în sectorul AI care progresează rapid. Se spune că setul de date LibGen a fost utilizat atât pentru antrenament, cât și pentru reglarea fină a modelelor, oferind datele la scară largă necesare dezvoltării capabilităților de procesare a limbajului.

Torrenting și eliminarea metadatelor h3>

Procesul îl acuză pe Meta că folosește protocoale de torrenting pentru a accesa și distribui setul de date LibGen. Torrentul implică în mod inerent „seeding” sau partajarea unor porțiuni din conținut descărcat cu alți utilizatori.

Conform mărturiei, inginerii Meta au configurat setările de torrenting pentru a minimiza vizibilitatea. După cum s-a menționat în dosarul instanței, „Bashlykov a configurat [torrent-ul ] astfel încât să poată avea loc cea mai mică cantitate de însămânțare”, o încercare de a evita detectarea în timp ce participați în continuare la partajarea fișierelor pe rețea.

Pe lângă torrentul, Meta ar fi dezbrăcat Copyright Management Information (CMI) din seturile de date de instruire. CMI include metadate atașate lucrărilor protejate prin drepturi de autor, care includ detalii precum numele autorului, data publicării și informații despre licențiere. Eliminarea CMI este ilegală în conformitate cu DMCA dacă facilitează încălcarea drepturilor de autor.

Reclamantii susțin că această eliminare a fost un act deliberat de a ascunde originile setului de date și de a împiedica modelele Llama să scoată conținut identificabil protejat prin drepturi de autor.

Așa cum se arată în proces, „Meta a dezbrăcat CMI nu doar în scopuri de instruire, ci și pentru a ascunde încălcarea drepturilor de autor, deoarece eliminarea CMI a operelor protejate de drepturi de autor îl împiedică pe Llama să emită informații despre drepturile de autor care ar putea alerta utilizatorii Llama și publicul încălcarea lui Meta.”

Yann LeCun, cercetătorul șef AI al Meta, a oferit anul trecut un indiciu despre cum crede Meta despre materialul protejat prin drepturi de autor când a sugerat pe X (fostul Twitter) că autorii de cărți ar trebui să-și pună la dispoziție lucrările în mod gratuit.

Numai un număr mic de autori de cărți câștigă bani semnificativi din vânzările de cărți.
Acest lucru pare să sugereze că majoritatea cărților ar trebui să fie disponibile gratuit pentru descărcare.
Veniturile pierdute pentru autori ar fi mici, iar beneficiile pentru societate sunt mari, prin comparație href=”https://t.co/4ObkW1tm85″>https://t.co/4ObkW1tm85

— Yann LeCun (@ylecun) 1 ianuarie 2024

Implicații legale și etice

Argumentele legale împotriva Meta includ revendicări în temeiul DMCA pentru eliminarea CMI și CDAFA pentru accesarea și utilizarea piratate date fără autorizație. Reclamanții susțin că torrentul și eliminarea metadatelor de către Meta au fost esențiale pentru ascunderea utilizării materialelor protejate prin drepturi de autor.

Judecătorul Vince Chhabria, care supraveghea cazul, a criticat încercările lui Meta de a redacta porțiuni substanțiale din dosar, menționând: „Este clar că cererea de sigilare a lui Meta nu este concepută pentru a proteja împotriva dezvăluirii de informații comerciale sensibile… Mai degrabă , este conceput pentru a evita publicitatea negativă.”

Acuzațiile împotriva Meta fac parte dintr-o conversație mai amplă despre modul în care sunt antrenate modelele AI. Modele de limbaj mari precum Llama se bazează adesea pe seturi de date masive care pot include materiale protejate prin drepturi de autor

În timp ce companii precum Meta susțin că o astfel de utilizare intră sub incidența utilizării loiale, criticii susțin că încalcă drepturile creatorilor și evidențiază necesitatea unei legalități mai clare. cadre în dezvoltarea AI.

Context industrial mai larg

Acest caz nu este un incident izolat Dezvoltarea rapidă a generației AI a condus la mai multe procese împotriva marilor companii de tehnologie, creatorii și deținătorii de drepturi de autor punând la îndoială legalitatea și etica utilizării lucrărilor lor fără consimțământ.

Cazul Meta reflectă o tensiune mai largă între inovația tehnologică și legile privind proprietatea intelectuală. Procesul pune în lumină, de asemenea, deciziile operaționale din cadrul Meta, unde forța de a rămâne competitivă în IA a depășit aparent considerațiile etice și juridice.

Practicile Meta ridică întrebări despre modul în care companiile echilibrează inovația cu conformitatea și responsabilitatea. Cazul ar putea crea un precedent pentru modul în care instanțele gestionează utilizarea materialelor protejate prin drepturi de autor în cadrul instruirii AI, influențând potențial reglementările și standardele din industrie.

Dosarul instanței dezvăluie modul în care Zuckerberg a aprobat utilizarea conținutului piratat pentru antrenarea AI a modelelor LLama

Published by All Things Windows on January 10, 2025

Aprobare în ciuda obiecțiilor interne

Implicații legale și etice

Context industrial mai larg

IT Info

Cohere dezvăluie platforma North AI; Provocări Microsoft și Google în Enterprise AI

IT Info

OpenAI îl elimină pe dezvoltatorul care a construit o pușcă robotică de santinelă alimentată de ChatGPT

IT Info

DLSS 3.5 vs. FSR 3: Care dintre ele vă oferă mai multă performanță?

Dosarul instanței dezvăluie modul în care Zuckerberg a aprobat utilizarea conținutului piratat pentru antrenarea AI a modelelor LLama

Published by All Things Windows on January 10, 2025

Aprobare în ciuda obiecțiilor interne

Implicații legale și etice

Context industrial mai larg

Related Posts

IT Info

Cohere dezvăluie platforma North AI; Provocări Microsoft și Google în Enterprise AI

IT Info

OpenAI îl elimină pe dezvoltatorul care a construit o pușcă robotică de santinelă alimentată de ChatGPT

IT Info

DLSS 3.5 vs. FSR 3: Care dintre ele vă oferă mai multă performanță?