Firma Meta Platforms jest poddawana intensywnej analizie prawnej w związku z rzekomym wykorzystaniem pirackich materiałów w szkoleniu modeli sztucznej inteligencji Lamy. Firma kierowana przez dyrektora generalnego Marka Zuckerberga jest oskarżona o wykorzystywanie nieautoryzowanych zbiorów danych z LibGen, dobrze znanego źródła pirackich książek i artykuły naukowe.

Nowo złożone dokumenty w związku z pozwem złożonym w Sądzie Okręgowym Stanów Zjednoczonych dla Północnego Okręgu Kalifornii (dokument 1, dokument 2) twierdzą, że Zuckerberg bezpośrednio zatwierdził zbiór danych używać, pomimo wewnętrznych ostrzeżeń co do jego legalności.

Wybitni autorzy, w tym Sarah Silverman i Ta-Nehisi Coates jest jednym z powodów, twierdząc, że działania Meta naruszają prawo autorskie i Ustawę Digital Millennium Copyright Act (DMCA).

Zarzucają także naruszenie Kalifornijska ustawa o kompleksowym dostępie do danych komputerowych i oszustwach (CDAFA), wskazująca na działania związane z torrentowaniem i usuwanie metadanych, które ukrywały pochodzenie danych.

Torrenty to technologia udostępniania plików typu peer-to-peer, która umożliwia użytkownikom pobieranie plików w mniejszych fragmentach z wielu źródeł. Chociaż jest skuteczny w udostępnianiu dużych zbiorów danych, często jest używany do dystrybucji pirackich treści, ponieważ jest zdecentralizowany i trudny do monitorowania.

Powiązane: Meta przyznaje, że wykorzystuje dane użytkownika australijskiego Facebooka na potrzeby sztucznej inteligencji Szkolenie bez zgody

Zgoda pomimo wewnętrznych zastrzeżeń

Wewnętrzne dokumenty i zeznania ujawniają niepokojący wzorzec podejmowania decyzji w Meta. Inżynierowie wyrazili obawy dotyczące wykorzystania LibGen, a jeden stwierdził: „Torrentowanie z firmowego laptopa [należącego do Meta] nie wydaje się właściwe”.

Te zastrzeżenia zostały przekazane Zuckerbergowi, który ostatecznie zatwierdził zbiór danych Potwierdzono to w wewnętrznej notatce: „Po eskalacji do MZ [Marka Zuckerberga] zespół Meta ds. sztucznej inteligencji został zatwierdzony do korzystania z LibGen.”

Zatwierdzenie to nastąpiło, gdy Meta starała się ulepszyć możliwości swoich modeli Lamy, co stanowi kluczową część jej strategii konkurowania w szybko rozwijającym się sektorze sztucznej inteligencji. Według doniesień zbiór danych LibGen był używany zarówno do uczenia, jak i dostrajania modeli, dostarczając dane na dużą skalę niezbędne do opracowania możliwości przetwarzania języka.

Powiązane: Użytkownicy opuszczają Facebooka, Instagram, wątki po wycofaniu przez Zuckerberga kontroli faktów

Torrentowanie i usuwanie metadanych

W pozwie zarzuca się Meta wykorzystywanie torrentów protokoły dostępu i dystrybucji zbioru danych LibGen. Torrentowanie nieodłącznie wiąże się z „wysyłaniem” lub udostępnianiem fragmentów pobranych treści innym użytkownikom.

Według zeznań inżynierowie Meta skonfigurowali ustawienia torrentowania w celu zminimalizowania widoczności. Jak zauważono w pozwie sądowym, „Bashlykov skonfigurował [torrent ] tak, aby mogło dojść do najmniejszego rozsiewu”, co stanowi próbę uniknięcia wykrycia przy jednoczesnym uczestnictwie w sieci wymiany plików.

Oprócz torrentowania Meta podobno usunęła Informacje o zarządzaniu prawami autorskimi (CMI) od zbiory danych szkoleniowych. CMI obejmuje metadane dołączone do dzieł chronionych prawem autorskim, które obejmują takie szczegóły, jak imię i nazwisko autora, data publikacji i informacje o licencji. Usunięcie CMI jest nielegalne na mocy ustawy DMCA, jeśli ułatwia naruszenie praw autorskich.

Powodowie twierdzą, że usunięcie to było celowym działaniem mającym na celu ukrycie pochodzenia zbioru danych i uniemożliwienie modelom Lamy generowania możliwych do zidentyfikowania treści chronionych prawem autorskim.

Jak stwierdzono w pozwie, „Meta usunęła CMI nie tylko w celach szkoleniowych, ale także w celu ukrycia naruszenia praw autorskich, ponieważ usunięcie CMI z dzieł chronionych prawem autorskim uniemożliwia Llamie publikowanie informacji o prawach autorskich, które mogłyby ostrzec użytkowników Lamy i opinię publiczną Naruszenie prawa Meta.”

Yann LeCun, główny specjalista ds. sztucznej inteligencji w firmie Meta, w zeszłym roku dał wskazówkę, co Meta myśli o materiałach chronionych prawem autorskim, kiedy zasugerował na X (dawniej Twitterze), że autorzy książek powinni tworzyć swoje dzieła swobodnie dostępne.

Tylko niewielka liczba autorów książek zarabia znaczne pieniądze na sprzedaży książek.
Wydaje się to sugerować, że większość książek powinna być swobodnie dostępna do pobrania.
Utracone przychody dla autorów byłyby w porównaniu z tym niewielkie, a korzyści dla społeczeństwa duże https://t.co/4ObkW1tm85

– Yann. LeCun (@ylecun) 1 stycznia 2024 r.

Przepisy prawne i Konsekwencje etyczne

Argumenty prawne przeciwko Meta obejmują roszczenia na podstawie ustawy DMCA za usunięcie CMI i CDAFA za dostęp do pirackich danych i wykorzystywanie ich bez autoryzacji. Powodowie twierdzą, że torrentowanie i usuwanie metadanych przez Meta było integralną częścią ukrywania wykorzystania przez nią materiałów chronionych prawem autorskim.

Sędzia Vince Chhabria, nadzorujący sprawę, skrytykował próby Meta zredagowania znacznych części zgłoszenia, zauważając: „Jest oczywiste, że wniosek Meta o zapieczętowanie nie ma na celu ochrony przed ujawnieniem wrażliwych informacji biznesowych… Raczej ma na celu uniknięcie negatywnego rozgłosu.”

Zarzuty wobec Meta są częścią szerszej dyskusji na temat uczenia modeli sztucznej inteligencji. Duże modele językowe, takie jak Llama, często opierają się na ogromnych zbiorach danych, które mogą zawierać materiały chronione prawem autorskim

Chociaż firmy takie jak Meta twierdzą, że takie wykorzystanie wchodzi w zakres dozwolonego użytku, krytycy twierdzą, że narusza to prawa twórców i podkreślają potrzebę jaśniejszych ram prawnych w rozwoju sztucznej inteligencji.

Szerszy kontekst branżowy

Ten przypadek nie jest odosobnionym przypadkiem Szybki rozwój generatywnej sztucznej inteligencji doprowadził do kilku procesów sądowych przeciwko głównym firmom technologicznym, z twórcami i właścicielami praw autorskich kwestionują legalność i etykę korzystania z ich utworów bez zgody.

Sprawa Meta odzwierciedla szersze napięcie między innowacjami technologicznymi a prawami własności intelektualnej. Pozew rzuca również światło na decyzje operacyjne podejmowane w firmie Meta, gdzie dążenie do utrzymania konkurencyjności w zakresie sztucznej inteligencji pozornie przeważało nad względami etycznymi i prawnymi.

Praktyki Meta rodzą pytania o to, jak firmy równoważą innowacje ze zgodnością i odpowiedzialnością. Sprawa może stanowić precedens dla sposobu, w jaki sądy radzą sobie z wykorzystaniem materiałów chronionych prawem autorskim w szkoleniach dotyczących sztucznej inteligencji, potencjalnie wpływając na przepisy i standardy branżowe.

Categories: IT Info