Meta Platforms 因涉嫌在訓練 Llama AI 模型時使用盜版材料而受到嚴格的法律審查。該公司由執行長馬克·祖克柏(Mark Zuckerberg) 領導,被指控使用來自LibGen 的未經授權的資料集,LibGen 是著名的盜版書籍來源和學術文章。 courtlistener.com/recap/gov.uscourts.cand.415175/gov.uscourts.cand.415175.376.0.pdf”>文件1,文件2) 聲稱祖克柏直接批准了該資料集的使用,儘管內部對其合法性發出警告。/Digital_Millennium_Copyright_Act”>數位千禧年版權法案(DMCA) 。

他們也指控違反加州綜合電腦資料存取與詐欺法案(CDAFA),指出洪流活動和隱藏資料來源的元資料剝離。 p>Torrent 是一種點對點檔案共用技術,可讓使用者下載較小的檔案來自多個來源的片段。雖然它可以有效地共享大型資料集,但它經常被用於分發盜版內容,因為它是分散且難以監控的

相關: Meta 承認利用澳洲Facebook使用者資料進行人工智慧未經同意的培訓

儘管內部反對但仍批准

內部文件和證詞揭示了Meta 令人不安的決策模式。工程師們對LibGen 的使用表示擔憂,其中一位工程師表示,「從[Meta 擁有的] 公司筆記型電腦下載種子感覺不太對。」

這些反對意見被上報給祖克柏,後者最終批准了該數據集的使用一份內部備忘錄證實,「升級到MZ [馬克·祖克柏]後,Meta 的人工智慧團隊被批准使用LibGen。」

這一批准是在Meta 尋求增強其Llama 模型的功能時發生的。據報道,LibGen 資料集用於訓練和微調模型,提供開發語言處理能力所需的大規模資料。格事實查核逆轉後的話題

Torrent 和元資料刪除

訴訟指控Meta 使用Torrent 協定來存取和分發LibGen 資料集。種子下載本質上涉及“播種”,即與其他用戶共享部分下載內容。 Bashlykov 配置了 [種子] 設置,以便可以進行最小量的播種”,試圖在仍然參與文件共享網絡的同時避免檢測。

據報道,除了torrent 之外,Meta 還剝離了來自訓練資料集的版權管理資訊(CMI )。 CMI 包括受版權保護的作品附帶的元數據,其中包括作者姓名、出版日期和許可資訊等詳細資訊。如果刪除CMI 會促進版權侵權,則根據DMCA 刪除CMI 是非法的。受版權保護的內容。

正如訴訟所述,「Meta 剝離CMI 不僅是為了培訓目的,也是為了隱藏其版權侵權行為,因為剝離受版權保護作品的CMI 會阻止Llama 輸出可能提醒Llama 用戶和公眾注意的版權資訊。保護的資料的看法。將是相較之下,為社會帶來的好處卻很大https://t.co/4ObkW1tm85

— Yann LeCun (@ylecun) ) 2024 年1 月1 日

法律與道德影響

針對 Meta 的法律論點包括根據 DMCA 要求刪除未經授權存取和使用盜版資料的 CMI 和 CDAFA。原告聲稱,Meta 的種子下載和元資料刪除是隱瞞其使用受版權保護資料的必要條件。負責此案的法官文斯·查布里亞(Vince Chhabria) 批評Meta 試圖修改文件的大部分內容,並指出,“很明顯,Meta 的密封請求並不是為了防止敏感商業信息的洩露……而是,它的目的是避免負面宣傳。」

對Meta 的指控是關於如何訓練人工智慧模型的更廣泛討論的一部分。像Llama 這樣的大型語言模型通常依賴於可能包含受版權保護的資料的大量資料集。更清晰的法律架構。創作者和版權所有者質疑其合法性和道德。

Meta 的案例反映了技術創新與智慧財產權法之間更廣泛的緊張關係。該訴訟還揭示了Meta 內部的營運決策,在AI 領域保持競爭力的推動力似乎超過了道德和法律考慮。問責制的問題。該案可能為法院如何處理人工智慧培訓中受版權保護的資料的使用樹立先例,從而可能影響法規和行業標準。

Categories: IT Info