Reddit は水曜日、ニューヨークで連邦訴訟を起こし、AI 検索会社 Perplexity とデータ ブローカー 3 社がコンテンツを違法にスクレイピングする「産業規模」の計画を行ったと非難した。
Reddit は訴状の中で、Perplexity が SerpApi、Oxylabs、AWMProxy の協力を得てセキュリティ対策を回避し、Google 検索結果からユーザーの会話を直接盗んだと主張している。
このような方法は、Google や OpenAI などのパートナーが使用する Reddit の公式ライセンス チャネルを回避します。 Reddit は、被告らが中止通知書を無視し、著作権法に違反したと主張し、AI モデルのトレーニングのためのデータの公正使用をめぐるテクノロジー業界の争いが激化している。
「銀行強盗」 Google のバックドア経由
論争の中心となっているのは、情報源そのものではなく、インターネットの仲介者、つまり検索エンジンをターゲットにした新しいデータ取得方法です。
Reddit の訴状では、被告らが Google 独自のスクレイピング防止保護を回避するツールを作成し、検索エンジン結果ページ (SERP) から Reddit のコンテンツを大規模に収集できるようにしたと主張しています。
その訴状には、不正競争、不当利得、デジタル ミレニアム著作権法 (DMCA) 違反など、複数の罪名が列挙されています。
レディットは、戦闘的な文言に満ちた法的提出の中で、被告をルール違反者であるだけでなく、「データ ロンダリング」経済の参加者であると位置づけた。
「AI 企業は、質の高い人間のコンテンツを求める軍拡競争に巻き込まれており、その圧力が産業規模の『データ ロンダリング』経済を加速させている。」同社の弁護士は、「非常に現実的な意味で、これらの被告は銀行強盗志願者に似ており、銀行の金庫室に入れないとわかっていて、代わりに現金を運ぶ装甲トラックに侵入する。」
その主張を証明するために、レディットはデジタルおとり捜査を実施した。 Google の検索クローラーのみがアクセスでき、オンライン上の他の場所にはアクセスできないように構成された「テスト投稿」が作成されました。
数時間以内に、Perplexity の回答エンジンは投稿のコンテンツを再現することができました。 Reddit は、Perplexity がデータを入手できた唯一の方法は Google の検索結果からデータをスクレイピングすることだったため、これはこの計画の動かぬ証拠であると主張しています。
Reddit の主な法的武器は DMCA です。具体的には、第 1201 条を発動し、著作物へのアクセスを制御する技術的手段を迂回することを違法としています。 Redditは、自社のサイト保護とGoogleのSearchGuardシステムの両方がそのような措置に該当すると主張している。この法律は、回避行為を対象とすることで、スクレイピングを実行するサービスだけでなく、スクレイピングを可能にするサービスに対する強力なツールを提供します。
王冠の保護: Reddit の 2 本柱のデータ戦略
法廷闘争の根底にあるのは、Reddit の人間の会話の膨大なアーカイブの計り知れない価値です。
分析会社 Profound の最近のレポートでは、次のことが確認されました。 Reddit は、すべての主要な AI モデルの中で最も引用されている唯一のドメインであり、そのコンテンツは大規模な言語モデルをトレーニングするための重要なリソースとなっています。ヒューマン エクスペリエンスのユニークで常に更新されるリポジトリは、データを大量に消費する AI 業界にとって宝の山です。
これを認識して、Reddit は、パートナーシップを通じて収益化し、訴訟を通じて保護するという、確固たる 2 本柱の戦略を採用しました。
同社は、Google との年間 6,000 万ドルの契約や OpenAI との年間契約など、大手 AI プレーヤーと有利なデータ ライセンス契約を締結しました。これらの合意により、コンテンツへの正式な有料経路が確立されます。
同時に、Reddit は、そのデータを許可なく使用していると思われる企業を積極的に追及する姿勢を示しました。
同社の新たな訴訟は、2025 年 6 月に無許可のデータスクレイピングの疑いで AI スタートアップの Anthropic に対して起こされた同様の訴訟に続くものです。これらの訴訟は、自社のデータを中核的なビジネス資産として守るという明確で揺るぎない方針を示しています。
照準の中にあるパープレクシティ: パブリッシャーとの紛争のパターン
パープレクシティは知識への自由なアクセスを公に擁護しているが、レディットの訴訟は、企業が意図的にプラットフォームの規則を回避しているという構図を浮き彫りにしている。
訴状によると、レディットは は2024年5月にPerplexityに停止と停止の書簡を送った。Redditによると、これに応じる代わりに、Perplexityによるコンテンツの利用が急増し、引用数は40倍に増加した。
訴訟ではSerpApi、Oxylabs、AWMProxyを共謀者として名指しし、セキュリティを迂回する技術的手段を提供したとして彼らを非難している。この文書では、AWMProxy を「旧ロシアのボットネット」Glupteba と結び付ける調査作業を引用しながら、特別な重大度を持って説明しています。
提出書類の詳細 作戦の規模の驚くべき全体像を描く。 Reddit は、2025 年 7 月の 2 週間だけで、スクレイピング会社はそのコンテンツを含む 30 億近くの Google 検索ページに不正にアクセスしたと主張しています。
Reddit の法務責任者ベン・リー氏は、「Perplexity は、これらのスクレイパーのうちの少なくとも 1 社の積極的な顧客であり、Reddit 自体と合法的な契約を結ぶのではなく、盗まれたデータを購入することを選択しています。」
指名された被告全員が、 容疑を強く否定した。 Perplexity のコミュニケーション責任者であるジェシー・ドワイヤー氏は声明で、「正確な AI で事実に基づいた回答を提供するため、私たちのアプローチは原則と責任を持ち続けており、公開性と公共の利益に対する脅威を容認しません。」と述べた。
SerpApi のディレクターであるライアン・シェーファー氏はアドウィークに次のように語った。
Oxylabs の最高ガバナンス兼戦略責任者、Denas Grybauskas もこれに同調し、同社は「これらの申し立てに対して躊躇なく弁護する」と述べた。
Perplexity にとって、このような告発に直面するのは今回が初めてではない。この AI 企業はすでに、News Corp、Encyclopedia Britannica、Merriam Webster などの大手出版社からの訴訟と戦っています。
また、Web セキュリティ企業 Cloudflare からも、「ステルス クローラー」を使用して Web サイトのルールを回避し、明示的に禁止しているサイトからコンテンツを収集したとして公に非難されています。
Reddit による今回の最新の訴訟は、増大するリストに新たな大きな法的課題を加えています。 Perplexity のデータ収集慣行は厳しい監視下に置かれています。