Meta Platforms er under intens juridisk gransking for påstått bruk av piratkopiert materiale i opplæringen av Llama AI-modellene. Selskapet, ledet av administrerende direktør Mark Zuckerberg, er anklaget for å ha brukt uautoriserte datasett fra LibGen, en velkjent kilde til piratkopierte bøker og akademiske artikler.
Nylig innleverte dokumenter for et søksmål anlagt i U.S. District Court for Northern District of California (dokument 1, dokument 2) hevder at Zuckerberg direkte godkjente datasettets bruk, til tross for interne advarsler om lovligheten.
Prominente forfattere, inkludert Sarah Silverman og Ta-Nehisi Coates, er blant saksøkerne, og hevder at Metas handlinger bryter loven om opphavsrett og Digital Millennium Copyright Act (DMCA).
De hevder også brudd på California’s Comprehensive Computer Data Access and Fraud Act (CDAFA), som peker på torrentingaktiviteter og metadatastripping som skjulte opprinnelsen til dataene.
Torrenter er en peer-to-peer fildelingsteknologi som lar brukere laste ned filer i mindre segmenter fra flere kilder. Selv om det er effektivt for å dele store datasett, brukes det ofte til å distribuere piratkopiert innhold, siden det er desentralisert og vanskelig å overvåke.
Relatert: Meta innrømmer å tappe australske Facebook-brukerdata for AI Opplæring uten samtykke
Godkjenning til tross for interne innvendinger
Interne dokumenter og deponeringer avslører et problematisk mønster for beslutningstaking ved Meta. Ingeniører ga uttrykk for bekymring for bruken av LibGen, med en som sa:”Torrenting fra en [Meta-eid] bedrifts-laptop føles ikke riktig.”
Disse innvendingene ble eskalert til Zuckerberg, som til slutt godkjente datasettets bruk Et internt notat bekreftet,”Etter eskalering til MZ [Mark Zuckerberg], ble Metas AI-team godkjent til å bruke LibGen.”
Dette. godkjenning skjedde da Meta forsøkte å forbedre mulighetene til sine Llama-modeller, en kritisk del av strategien for å konkurrere i den raskt fremadskridende AI-sektoren. LibGen-datasettet ble angivelig brukt til både trening og finjustering av modellene, og ga de store dataene som er nødvendige for å utvikle språkbehandlingsevner.
Relatert: Brukere forlater Facebook, Instagram, tråder etter Zuckerbergs reversering av faktasjekking
Torrenting og fjerning av metadata
Søkemålet anklager Meta for å bruke torrenting-protokoller for å få tilgang til og distribuere LibGen-datasettet. Torrenting involverer i seg selv”såing”eller deling av deler av nedlastet innhold med andre brukere.
I følge vitnesbyrd konfigurerte Meta-ingeniører torrentinginnstillinger for å minimere synlighet. Som nevnt i rettssaken,”konfigurerte Basjlykov [torrenten] ] innstillinger slik at den minste mengden seeding kan forekomme,”et forsøk på å unngå gjenkjenning mens du fortsatt deltar i fildelingsnettverket.
I I tillegg til torrenting skal Meta ha fratatt Copyright Management Informasjon (CMI) fra opplæringsdatasettene. CMI inkluderer metadata knyttet til opphavsrettsbeskyttede verk som inkluderer detaljer som forfatterens navn, publiseringsdato og lisensinformasjon. Å fjerne CMI er ulovlig i henhold til DMCA hvis det letter brudd på opphavsrett.
Saksøkerne hevder at denne fjerningen var en bevisst handling for å skjule datasettets opprinnelse og forhindre Llama-modellene i å produsere identifiserbart opphavsrettsbeskyttet innhold.
Som søksmålet heter,”Meta strippet CMI ikke bare for opplæringsformål, men også for å skjule brudd på opphavsretten, fordi stripping av opphavsrettsbeskyttede verks CMI forhindrer Llama i å sende ut opphavsrettsinformasjon som kan varsle Llama-brukere og publikum om å Metas krenkelse.”
Yann LeCun, Metas sjef for AI-forsker, ga i fjor et hint om hvordan Meta tenker på opphavsrettsbeskyttet materiale da han på X (tidligere Twitter) foreslo at bokforfattere burde gjøre verkene sine fritt tilgjengelig.
Bare et lite antall bokforfattere tjener betydelige penger på boksalg.
Dette ser ut til å antyde at de fleste bøker bør være fritt tilgjengelig for nedlasting.
Den tapte inntekten for forfattere ville være liten, og fordelene for samfunnet store til sammenligning href=”https://t.co/4ObkW1tm85″>https://t.co/4ObkW1tm85— Yann LeCun (@ylecun) 1. januar, 2024
Juridiske og etiske implikasjoner
De juridiske argumentene mot Meta inkluderer krav under DMCA for fjerning av CMI og CDAFA for tilgang til og bruk av piratkopiert data uten autorisasjon. Saksøkerne hevder at Metas torrenting og fjerning av metadata var integrert i å skjule bruken av opphavsrettsbeskyttet materiale.
Dommer Vince Chhabria, som overvåket saken, kritiserte Metas forsøk på å redigere betydelige deler av innleveringen, og bemerket:”Det er klart at Metas forseglingsforespørsel ikke er utformet for å beskytte mot avsløring av sensitiv forretningsinformasjon… Snarere , den er designet for å unngå negativ publisitet.”
Anklagene mot Meta er en del av en bredere samtale om hvordan AI-modeller er trent Store språkmodeller som Llama er ofte avhengige av massive datasett som kan inkludere opphavsrettsbeskyttet materiale
Mens selskaper som Meta hevder at slik bruk faller inn under rettferdig bruk, hevder kritikere at det krenker rettighetene til skapere og høydepunkter. behovet for klarere juridiske rammer i AI-utvikling.
Bredere industrikontekst
Dette Saken er ikke en isolert hendelse Den raske utviklingen av generativ kunstig intelligens har ført til flere søksmål mot store teknologiselskaper, med skapere og rettighetshavere som stiller spørsmål ved lovligheten og etikken ved å bruke verkene deres uten samtykke.
Metas sak reflekterer en bredere spenning mellom teknologisk innovasjon og lover om immaterielle rettigheter. Søksmålet kaster også lys over operasjonelle beslutninger innen Meta, der presset for å holde seg konkurransedyktig innen AI tilsynelatende oppveide etiske og juridiske hensyn.
Metas praksis reiser spørsmål om hvordan selskaper balanserer innovasjon med compliance og ansvarlighet. Saken kan danne presedens for hvordan domstoler håndterer bruken av opphavsrettsbeskyttet materiale i AI-opplæring, og kan potensielt påvirke reguleringer og industristandarder.