微軟和 OpenAI 面臨《紐約時報》和其他出版商侵犯版權的指控,週二在聯邦法院辯稱,根據合理使用原則,他們使用公開的新聞文章來訓練大型語言模型 (LLM) 是合法的教義。

訴訟

原告聲稱,這些人工智慧模型經過包含數百萬篇文章的資料集的訓練,可以以替代原始作品的方式複製或總結其內容。 「這是關於替換內容,而不是改變內容,」代表《紐約時報》的 Ian Crosby 說。 The-New-York-Times-Homepage.jpg”>

克羅斯比警告說,這種做法可能會從出版商網站上轉移30% 到50% 的線上新聞流量。

公平使用原則是案件的核心

OpenAI 的辯護取決於這樣的論點:他們對新聞資料的使用具有變革性,因此受到 OpenAI 律師 Joseph Gratz 的保護。律師約瑟夫·格拉茨(Joseph Gratz) 向法官Sidney Stein 解釋道,ChatGPT 通過將數據分解為稱為“令牌”的較小單元來處理數據,從而使模型能夠識別模式並生成新內容,而不是直接複製文字。後來才會出現。

他們認為,合理使用可以在不損害內容創作者權利的情況下發展造福社會的技術。該公司在法庭文件中表示:「版權法對法學碩士的障礙並不比對錄影機(或自動鋼琴、影印機、個人電腦、網路或搜尋引擎)的障礙更大。」

出版商聲稱遭受財務和道德損害

出版商辯稱,未經許可使用其內容不僅違反了版權法,而且威脅到了他們的財務可持續性。了具體的例子,其中包括:人工智慧工具可以繞過出版商的付費牆來總結文章或提供產品推薦

據《泰晤士報》報道,微軟的Bing Chat(現已更名為Copilot )已將潛在讀者從其附屬平台Wirecutter,減少了流量和收入。日新聞》的代表史蒂文‧利伯曼(Steven Lieberman) 批評科技公司對以下來源的依賴Common Crawl ,一個聚合網路資料供公眾使用的非營利組織。他將這種做法描述為「搭便車」記者和出版商的工作,使人工智慧公司能夠將他們未創建或許可的內容貨幣化。民主化,但批評者指出

OpenAI 使用檢索增強生成(RAG),這是一種將來自網路的即時資訊整合到人工智慧生成的回應中的方法,這使得問題變得更加複雜。處罰

該訴訟要求賠償數十億美元,並要求銷毀包含未經授權材料的數據集。使用授權或公共領域的內容來重建人工智慧系統。

聯邦版權法允許對每次故意侵權行為處以最高150,000 美元的罰款

a>,考慮到所涉及的資料量,這個數字可能會急劇上升。

該訴訟還凸顯了人們對媒體管理工具和行業響應的不滿OpenAI 推遲推出其媒體管理器工具,最初承諾於2024 年5 月讓創作者更好地控制其內容在AI 訓練數據集中的使用方式。

批評者認為,這種失敗使得小型出版商和獨立創作者在保護其智慧財產權方面的選擇有限。

雖然《時代》雜誌、《紐約客》、《Vogue》、《名利場》、《Bon Appetit》和《連線》等主要出版商以及超過2oo 家其他出版商已與OpenAI 簽訂了許可協議,但許多較小的出版商缺乏談判類似交易的資源.

更廣泛的行業仍然存在分歧,一些公司採用合作夥伴關係來許可人工智能開發的內容,而另一些公司則提起訴訟。在加拿大,出版商聯盟已提起訴訟,指控OpenAI 進行“廣泛抄襲”,Michael Chabon 等著名作家也表達了類似的擔憂。 >

法官西德尼·斯坦因在聽證會上表現出對技術問題的深刻理解,但尚未對被告的駁回動議做出裁決

斯坦因承認案件的複雜性,表示合理使用可能會在他的決定中發揮關鍵作用,這一結果可能會為生成人工智慧系統如何與受版權保護的材料互動以及開發者對內容創作者的義務樹立一個重要的先例。

作為法律程序。 p>