Meta Platforms đang bị giám sát pháp lý chặt chẽ vì bị cáo buộc sử dụng tài liệu vi phạm bản quyền trong việc đào tạo các mô hình Llama AI của mình. Công ty, do Giám đốc điều hành Mark Zuckerberg đứng đầu, bị cáo buộc sử dụng các bộ dữ liệu trái phép từ LibGen, một nguồn sách lậu nổi tiếng và các bài báo học thuật.

Các tài liệu mới được nộp cho một vụ kiện được nộp lên Tòa án Quận của Hoa Kỳ cho Quận Bắc California (tài liệu 1, tài liệu 2) khẳng định rằng Zuckerberg đã trực tiếp phê duyệt dữ liệu sử dụng, bất chấp những cảnh báo nội bộ về tính hợp pháp của nó.

Các tác giả nổi tiếng, bao gồm Sarah Silverman và Ta-Nehisi Coates, nằm trong số các nguyên đơn, tranh luận rằng hành động của Meta vi phạm luật bản quyền và Đạo luật bản quyền kỹ thuật số thiên niên kỷ (DMCA).

Họ cũng cáo buộc vi phạm Đạo luật gian lận và truy cập dữ liệu máy tính toàn diện của California (CDAFA), chỉ ra các hoạt động tải torrent và loại bỏ siêu dữ liệu nhằm che giấu nguồn gốc của dữ liệu.

Torrent là công nghệ chia sẻ tệp ngang hàng cho phép người dùng tải tệp xuống theo từng phân đoạn nhỏ hơn từ nhiều nguồn. Mặc dù hiệu quả trong việc chia sẻ các tập dữ liệu lớn nhưng nó thường được sử dụng để phân phối nội dung vi phạm bản quyền vì nó phi tập trung và khó giám sát.

Phê duyệt bất chấp sự phản đối nội bộ

Các tài liệu nội bộ và lời khai tiết lộ mô hình ra quyết định đáng lo ngại tại Meta. Các kỹ sư bày tỏ lo ngại về việc sử dụng LibGen, trong đó có một người tuyên bố:”Torrent từ máy tính xách tay của công ty [sở hữu Meta] có vẻ không ổn.”

Những phản đối này đã được chuyển đến Zuckerberg, người cuối cùng đã phê duyệt tập dữ liệu việc sử dụng Một bản ghi nhớ nội bộ đã xác nhận: “Sau khi chuyển sang MZ [Mark Zuckerberg], nhóm AI của Meta đã được chấp thuận sử dụng LibGen.”

Sự chấp thuận này diễn ra khi Meta tìm cách nâng cao khả năng của Llama của mình. mô hình, một phần quan trọng trong chiến lược cạnh tranh trong lĩnh vực AI đang phát triển nhanh chóng. Theo báo cáo, tập dữ liệu LibGen đã được sử dụng để đào tạo và tinh chỉnh các mô hình, cung cấp dữ liệu quy mô lớn cần thiết để phát triển khả năng xử lý ngôn ngữ.

Xóa torrent và siêu dữ liệu

Vụ kiện cáo buộc Meta sử dụng các giao thức tải torrent để truy cập và phân phối tập dữ liệu LibGen. Tải torrent vốn dĩ liên quan đến việc”gieo”hoặc chia sẻ các phần nội dung đã tải xuống với những người dùng khác.

Theo lời khai, các kỹ sư của Meta đã định cấu hình cài đặt tải torrent để giảm thiểu khả năng hiển thị. Như đã lưu ý trong hồ sơ tòa án, “Bashlykov đã định cấu hình [torrent ] để có thể xảy ra số lượng gieo hạt nhỏ nhất,”một nỗ lực nhằm tránh bị phát hiện trong khi vẫn tham gia vào mạng chia sẻ tệp.

Ngoài việc tải torrent, Meta được cho là đã tước bỏ Thông tin quản lý bản quyền (CMI) từ các tập dữ liệu huấn luyện. CMI bao gồm siêu dữ liệu đính kèm với tác phẩm có bản quyền bao gồm các chi tiết như tên tác giả, ngày xuất bản và thông tin cấp phép. Việc xóa CMI là bất hợp pháp theo DMCA nếu nó tạo điều kiện cho hành vi vi phạm bản quyền.

Các nguyên đơn cho rằng việc xóa này là hành động có chủ ý nhằm che giấu nguồn gốc của tập dữ liệu và ngăn các mô hình Llama xuất ra nội dung có bản quyền có thể nhận dạng được.

Như vụ kiện nêu rõ, “Meta loại bỏ CMI không chỉ vì mục đích đào tạo mà còn để che giấu hành vi vi phạm bản quyền của nó, bởi vì việc tước bỏ CMI của các tác phẩm có bản quyền sẽ ngăn Llama xuất thông tin bản quyền có thể cảnh báo người dùng Llama và công chúng về Sự vi phạm của Meta.”

Yann LeCun, nhà khoa học AI trưởng của Meta, năm ngoái đã đưa ra gợi ý về suy nghĩ của Meta về tài liệu có bản quyền khi anh ấy đề xuất trên X (trước đây là Twitter) rằng các tác giả sách nên tạo tác phẩm của họ một cách tự do có sẵn.

Chỉ một số ít tác giả sách kiếm được số tiền đáng kể từ việc bán sách.
Điều này dường như gợi ý rằng hầu hết sách nên được cung cấp miễn phí để tải xuống.
Doanh thu bị mất đối với tác giả sẽ nhỏ nhưng lợi ích cho xã hội sẽ lớn khi so sánh https://t.co/4ObkW1tm85

— Yann LeCun. (@ylecun) Ngày 1 tháng 1 năm 2024

Ý nghĩa pháp lý và đạo đức

Các lập luận pháp lý chống lại Meta bao gồm các khiếu nại theo DMCA về việc loại bỏ CMI và CDAFA để truy cập và sử dụng dữ liệu lậu mà không được phép. Các nguyên đơn cáo buộc rằng việc xóa torrent và siêu dữ liệu của Meta là không thể thiếu để che giấu việc sử dụng tài liệu có bản quyền của Meta.

Thẩm phán Vince Chhabria, giám sát vụ án, đã chỉ trích nỗ lực của Meta nhằm biên tập lại các phần quan trọng của hồ sơ, lưu ý rằng: “Rõ ràng là yêu cầu niêm phong của Meta không được thiết kế để bảo vệ khỏi việc tiết lộ thông tin kinh doanh nhạy cảm… Đúng hơn là , nó được thiết kế để tránh dư luận tiêu cực.”

Các cáo buộc chống lại Meta là một phần của cuộc trò chuyện rộng hơn về cách đào tạo các mô hình AI. Các mô hình ngôn ngữ lớn như Llama thường dựa vào các bộ dữ liệu khổng lồ có thể bao gồm tài liệu có bản quyền.

Trong khi các công ty như Meta lập luận rằng cách sử dụng như vậy thuộc phạm vi sử dụng hợp lý, các nhà phê bình cho rằng nó vi phạm quyền của người sáng tạo và nêu bật sự cần thiết phải có khung pháp lý rõ ràng hơn trong việc phát triển AI.

Ngành công nghiệp rộng hơn Bối cảnh

Trường hợp này không phải là một sự cố cá biệt. Sự phát triển nhanh chóng của AI đã dẫn đến một số vụ kiện chống lại các công ty công nghệ lớn, trong đó những người sáng tạo và chủ sở hữu bản quyền đặt câu hỏi về tính hợp pháp và đạo đức của việc sử dụng tác phẩm của họ. mà không có sự đồng ý.

Trường hợp của Meta phản ánh sự căng thẳng rộng lớn hơn giữa đổi mới công nghệ và luật sở hữu trí tuệ. Vụ kiện cũng làm sáng tỏ các quyết định hoạt động trong Meta, nơi nỗ lực duy trì tính cạnh tranh trong AI dường như vượt xa các cân nhắc về đạo đức và pháp lý.

Các hoạt động của Meta đặt ra câu hỏi về cách các công ty cân bằng giữa đổi mới với sự tuân thủ và trách nhiệm giải trình. Vụ kiện có thể tạo tiền lệ cho cách tòa án xử lý việc sử dụng tài liệu có bản quyền trong đào tạo AI, có khả năng ảnh hưởng đến các quy định và tiêu chuẩn ngành.

Categories: IT Info