Meta Platforms berada di bawah penelitian undang-undang yang ketat atas dakwaan penggunaan bahan cetak rompak dalam melatih model AI Llamanya. Syarikat itu, yang diketuai oleh Ketua Pegawai Eksekutif Mark Zuckerberg, dituduh menggunakan set data yang tidak dibenarkan daripada LibGen, sumber terkenal buku cetak rompak dan artikel akademik.
Dokumen yang baru difailkan untuk tuntutan mahkamah yang difailkan di Mahkamah Daerah A.S. untuk Daerah Utara California (dokumen 1, dokumen 2) mendakwa bahawa Zuckerberg meluluskan set data secara langsung digunakan, walaupun terdapat amaran dalaman tentang kesahihannya.
Pengarang terkemuka, termasuk Sarah Silverman dan Ta-Nehisi Coates, adalah antara plaintif, dengan alasan bahawa tindakan Meta melanggar undang-undang hak cipta dan Digital Millennium Copyright Act (DMCA).
Mereka juga mendakwa pelanggaran California’s Akta Akses dan Penipuan Data Komputer Komprehensif (CDAFA), menunjuk kepada aktiviti torrent dan pelucutan metadata yang menyembunyikan asal usul data.
Torrents ialah teknologi perkongsian fail peer-to-peer yang membolehkan pengguna memuat turun fail dalam segmen yang lebih kecil daripada pelbagai sumber. Walaupun cekap untuk berkongsi set data yang besar, ia sering digunakan untuk mengedarkan kandungan cetak rompak, kerana ia tidak berpusat dan sukar untuk dipantau.
Berkaitan: Meta Akui Mengetik Data Pengguna Facebook Australia untuk AI Latihan Tanpa Persetujuan
Kelulusan Walaupun Bantahan Dalaman
Dokumen dan deposit dalaman mendedahkan corak membuat keputusan yang membimbangkan di Meta. Jurutera menyuarakan kebimbangan mengenai penggunaan LibGen, dengan satu menyatakan,”Mentorrent daripada komputer riba korporat [milik Meta] rasanya tidak sesuai.”
Bantahan ini telah dikemukakan kepada Zuckerberg, yang akhirnya meluluskan set data menggunakan. Memo dalaman mengesahkan,”Selepas peningkatan kepada MZ [Mark Zuckerberg], pasukan AI Meta telah diluluskan untuk menggunakan LibGen.”
Kelulusan ini berlaku sebagai Meta berusaha untuk meningkatkan keupayaan model Llamanya, bahagian penting dalam strateginya untuk bersaing dalam sektor AI yang pesat membangun. Set data LibGen dilaporkan digunakan untuk kedua-dua latihan dan penalaan halus model, menyediakan data berskala besar yang diperlukan untuk membangunkan keupayaan pemprosesan bahasa.
Berkaitan: Pengguna Tinggalkan Facebook, Instagram, Threads selepas Pembalikan Semakan Fakta Zuckerberg
Penyingkiran Torrenting dan Metadata
Tuntutan mahkamah menuduh Meta menggunakan protokol torrenting untuk mengakses dan mengedarkan set data LibGen. Torrenting sememangnya melibatkan”pembenihan,”atau berkongsi bahagian kandungan yang dimuat turun dengan pengguna lain.
Menurut keterangan, jurutera Meta mengkonfigurasi tetapan torrent untuk meminimumkan keterlihatan. Seperti yang dinyatakan dalam pemfailan mahkamah,”Bashlykov mengkonfigurasi [torrent] ] tetapan supaya jumlah pembenihan terkecil boleh berlaku,”percubaan untuk mengelakkan pengesanan semasa masih mengambil bahagian dalam rangkaian perkongsian fail.
Dalam selain torrent, Meta dilaporkan telah melucutkan Pengurusan Hak Cipta Maklumat (CMI) daripada set data latihan. CMI termasuk metadata yang dilampirkan pada karya berhak cipta yang merangkumi butiran seperti nama pengarang, tarikh penerbitan dan maklumat pelesenan. Mengalih keluar CMI adalah menyalahi undang-undang di bawah DMCA jika ia memudahkan pelanggaran hak cipta.
Plaintif berpendapat bahawa pengalihan keluar ini adalah tindakan yang disengajakan untuk mengaburkan asal usul set data dan menghalang model Llama daripada mengeluarkan kandungan berhak cipta yang boleh dikenal pasti.
Seperti yang dinyatakan dalam tuntutan mahkamah, “Meta melucutkan CMI bukan sahaja untuk tujuan latihan tetapi juga untuk menyembunyikan pelanggaran hak ciptanya, kerana menanggalkan CMI karya berhak cipta menghalang Llama daripada mengeluarkan maklumat hak cipta yang mungkin memberi amaran kepada pengguna Llama dan orang awam untuk Pelanggaran Meta.”
Yann LeCun, ketua saintis AI Meta, tahun lepas memberi petunjuk bagaimana Meta berfikir tentang bahan berhak cipta apabila dia mencadangkan di X (dahulunya Twitter) bahawa pengarang buku harus menyediakan karya mereka secara percuma.
Hanya sebilangan kecil pengarang buku yang memperoleh wang yang besar daripada jualan buku.
Ini nampaknya menunjukkan bahawa kebanyakan buku harus tersedia secara percuma untuk dimuat turun.
Pendapatan yang hilang untuk pengarang adalah kecil, dan manfaat kepada masyarakat besar jika dibandingkan https://t.co/4ObkW1tm85— Yann LeCun (@ylecun) 1 Januari, 2024
Implikasi Undang-undang dan Etika
Hujah undang-undang terhadap Meta termasuk tuntutan di bawah DMCA untuk mengalih keluar CMI dan CDAFA kerana mengakses dan menggunakan cetak rompak data tanpa kebenaran. Plaintif mendakwa bahawa torrent Meta dan penyingkiran metadata adalah penting untuk menyembunyikan penggunaan bahan berhak cipta oleh Meta.
Hakim Vince Chhabria, yang menyelia kes itu, mengkritik percubaan Meta untuk menyunting sebahagian besar pemfailan, dengan menyatakan, “Adalah jelas bahawa permintaan pengedap Meta tidak direka untuk melindungi daripada pendedahan maklumat perniagaan yang sensitif… Sebaliknya , ia direka untuk mengelakkan publisiti negatif.”
Tuduhan terhadap Meta adalah sebahagian daripada perbualan yang lebih luas tentang cara model AI dilatih. Model bahasa besar seperti Llama sering bergantung pada set data besar-besaran yang mungkin termasuk bahan berhak cipta
Walaupun syarikat seperti Meta berpendapat bahawa penggunaan sedemikian termasuk dalam penggunaan adil, pengkritik berpendapat bahawa ia melanggar hak pencipta dan menyerlahkan keperluan. untuk rangka kerja undang-undang yang lebih jelas dalam pembangunan AI.
Konteks Industri Yang Lebih Luas
Kes ini bukan insiden terpencil. Perkembangan pesat AI generatif telah membawa kepada beberapa tindakan undang-undang terhadap syarikat teknologi utama, dengan pencipta dan pemegang hak cipta mempersoalkan kesahihan dan etika menggunakan karya mereka tanpa kebenaran.
Kes Meta menggambarkan ketegangan yang lebih luas antara inovasi teknologi dan undang-undang harta intelek. Tuntutan itu juga menjelaskan keputusan operasi dalam Meta, di mana dorongan untuk kekal berdaya saing dalam AI nampaknya mengatasi pertimbangan etika dan undang-undang.
Amalan Meta menimbulkan persoalan tentang cara syarikat mengimbangi inovasi dengan pematuhan dan akauntabiliti. Kes itu boleh menjadi contoh untuk cara mahkamah mengendalikan penggunaan bahan berhak cipta dalam latihan AI, yang berpotensi mempengaruhi peraturan dan piawaian industri.