Reddit 週三在紐約提起聯邦訴訟,指控人工智能搜索公司 Perplexity 和三個數據經紀人實施“工業規模”計劃,非法抓取其內容。

Reddit 在投訴中稱 Perplexity 在 SerpApi、Oxylabs 和 AWMProxy 的幫助下繞過安全措施,直接從 Google 搜索結果竊取用戶對話。

這種方法繞過了 Google 和 OpenAI 等合作夥伴使用的 Reddit 官方許可渠道。 Reddit 聲稱被告無視停止函並違反了版權法,使科技行業關於公平使用數據訓練人工智能模型的鬥爭升級。

一場“銀行搶劫” Google 的後門

爭議的核心是一種新穎的數據獲取方法,其目標是互聯網中介機構(搜索引擎),而不是數據源本身。

Reddit 的訴狀稱,被告創建了工具來規避 Google 自身的反抓取保護措施,使他們能夠從搜索引擎結果頁面 (SERP) 大規模獲取 Reddit 內容。

其訴訟列出了多項罪名,包括不公平競爭、不當得利以及違反《數字千年版權法案》(DMCA)。

在一份充滿攻擊性語言的法律文件中,Reddit 將被告定位為不僅是規則破壞者,而且是“數據洗錢”經濟的參與者。

“人工智能公司陷入了一場爭奪高質量人類內容的軍備競賽,這種壓力助長了工業規模的“數據洗錢”經濟。”公司律師辯稱,“從真正意義上講,這些被告類似於潛在的銀行搶劫犯,他們知道自己無法進入銀行金庫,而是闖入運載現金的運鈔車。”

為了證明其指控,Reddit 進行了一次數字誘捕行動。它創建了一個“測試帖子”,配置為只能由 Google 的搜索爬蟲訪問,而無法通過其他在線方式訪問。

幾個小時內,Perplexity 的答案引擎就能夠重現該帖子的內容。 Reddit 聲稱這是該計劃無可辯駁的證據,因為 Perplexity 獲取數據的唯一方法是從 Google 的搜索結果中抓取數據。

Reddit 的主要法律武器是 DMCA。具體來說,它援引了第 1201 條,該條規定繞過控制受版權保護作品訪問的技術措施是非法的。 Reddit 認為,它自己的網站保護和谷歌的 SearchGuard 系統都符合此類措施。通過針對規避行為,法律提供了一個強大的工具來打擊那些能夠進行抓取的服務,而不僅僅是那些執行抓取的人。

保護皇冠上的明珠:Reddit 的雙管齊下的數據策略

這場法律鬥爭的基礎是 Reddit 龐大的人類對話檔案的巨大價值。

分析公司 Profound 最近的一份報告證實,Reddit 所有主要人工智能模型中引用次數最多的領域,使其內容成為訓練大型語言模型的關鍵資源。其獨特的、不斷更新的人類經驗庫對於數據飢渴的人工智能行業來說是一座金礦。

認識到這一點,Reddit 採取了堅定的雙管齊下的戰略:通過合作夥伴關係實現盈利,並通過訴訟提供保護。

該公司已與主要人工智能公司簽署了利潤豐厚的數據許可協議,其中包括據報導與 Google 達成的價值 6000 萬美元的年度協議以及與 OpenAI 達成的另一項協議。這些協議為其內容建立了一條正式的付費途徑。

同時,Reddit 表示將積極追查其認為未經許可使用其數據的公司。

繼 2025 年 6 月針對人工智能初創公司 Anthropic 提起類似的法律訴訟後,該公司涉嫌未經許可的數據抓取。這些案件共同表明了捍衛其作為核心業務資產的數據的明確和堅定不移的政策。

十字準線中的困惑:出版商衝突的模式

雖然 Perplexity 公開支持免費獲取知識,但 Reddit 的訴訟描繪了一家公司故意逃避平台規則的畫面。

根據投訴,Reddit 發送了 早在 2024 年 5 月,Perplexity 就向 Perplexity 發出了一封停止函。 Reddit 聲稱,Perplexity 不但沒有遵守規定,反而對其內容的使用激增,引用次數增加了 40 倍。

該訴訟將 SerpApi、Oxylabs 和 AWMProxy 列為同謀,指控他們提供繞過安全的技術手段。它對 AWMProxy 進行了特別嚴重的描述,並引用了將其與“前俄羅斯殭屍網絡”Glupteba 聯繫起來的調查工作

文件中的詳細信息 描繪出令人震驚的行動規模; Reddit 聲稱,在 2025 年 7 月的短短兩週內,抓取公司非法訪問了近 30 億個包含其內容的 Google 搜索頁面。

Reddit 的法律負責人 Ben Lee 表示,“Perplexity 是至少其中一個抓取工具的自願客戶,選擇購買被盜數據,而不是與 Reddit 本身簽訂合法協議。”

所有指定被告均已 強烈否認這些指控。 Perplexity 的傳播主管 Jesse Dwyer 在一份聲明中表示:“我們的做法仍然是原則性和負責任的,因為我們通過準確的人工智能提供事實答案,我們不會容忍對開放性和公共利益的威脅。”SerpApi 總監 Ryan Schafer 告訴《廣告周刊》,“我們強烈不同意 Reddit 的指控,並打算在 “

Oxylabs 首席治理和戰略官 Denas Grybauskas 對此表示贊同,並表示該公司“將毫不猶豫地針對這些指控為自己辯護”。

對於 Perplexity 來說,這並不是它第一次面臨此類指控。這家人工智能公司已經在應對新聞集團、大英百科全書和韋氏詞典等主要出版商的訴訟。

它還被網絡安全公司 Cloudflare 公開指控使用“隱形爬蟲”繞過網站規則並從明確禁止的網站上抓取內容。

Reddit 的最新訴訟為不斷增長的名單增添了另一項重大法律挑戰, 將 Perplexity 的數據收集實踐置於嚴格審查之下。

Categories: IT Info