GitHub でホストされているプロジェクトでは、既知の AI クローラーによる Web サイト コンテンツへのアクセスをブロックするように設計された厳選された robots.txt ファイルが提供されています。
ai.robots.txt と呼ばれる取り組みは、オンライン マテリアルの保護を目的としています。許可なく大規模言語モデル (LLM) をトレーニングするために使用されることを禁止します。
このプロジェクトは、ブロックするように構成された既知の AI クローラーをリストしたシンプルなファイルを提供することで、開発者にデータの管理を強化するよう促し、AI 企業が倫理慣行を遵守することを奨励します。
このプロジェクトは、不透明な機能に対する開発者とパブリッシャーの間で高まっている不満を反映しています。 AI システムがトレーニング データを収集するために使用する方法。コンプライアンスを強制することはできませんが、厳選された robots.txt は、テクノロジーがインターネットを再構築する AI 企業の倫理的責任にスポットライトを当てています。
厳選された robots.txt の仕組み
提供される robots.txt ファイルには、AI クローラーに関連付けられたユーザー エージェント名のオープンソース リストが含まれており、ボットのアクティビティを追跡する取り組みである Dark Visitors から部分的にソースされています。
開発者は、GitHub でプル リクエストを送信して更新に貢献することをお勧めします。これにより、新しいボットが出現してもリストが最新の状態に保たれます。このプロジェクトは AI 企業による自発的な遵守に依存していますが、コンテンツのアクセスと使用方法を管理しようとしているサイト所有者にとって切望されているツールを提供します。
厳選された robots.txt ファイルは貴重なツールを提供します。開発者にとって、その有効性は自発的なコンプライアンスに依存することで制限されます。多くの AI クローラーは、Googlebot などの従来の Web クローラーが尊重する倫理的境界の外で動作します。
ボットが人間の動作を模倣できるようにするヘッドレス ブラウジングなどの高度な技術により、不正アクセスを特定してブロックすることが困難になります。
IP ブロックやカスタマイズされたサーバー側の対策などファイアウォール ルールは、追加の保護を提供しますが、確実ではありません。
ますます多くのクローラーが AI を収集しています
伝えられるところによると、Microsoft の Bing クローラーは、このルールを尊重しています。 Reddit がそのコンテンツを Google にのみ提供し、Bing や DuckDuckGo などの他の検索エンジンをブロックし始めたときに明らかになったように、検索インデックスに robots.txt を使用しています。ただし、これは主に検索のためのページのクロールに関するものであり、大規模言語モデル (LLM) のトレーニングに関するものではありません。
メタの事例が示すように、大手テクノロジー企業は、データを取得するために怪しげな戦術を使用することを躊躇しません。彼らの AI トレーニング。同社は、海賊版の書籍や学術論文を含む未承認のデータセットを使用していると伝えられています。
AI トレーニングに動画を許可なく使用したとして Google 子会社と Nvidia に対して起こされた訴訟を見ると、YouTube クリエイターも同様の影響を受けています。
Perplexity AI: コンプライアンス問題を伴う事例
高度なクローリング ボット ブロックの必要性は、昨年、Perplexity AI に関連するインシデントを通じて特に明らかになりました。開発者の Robb Knight は、明示的な robots.txt ディレクティブと「403 Forbidden」応答を返すように設定されたサーバー側ブロックにもかかわらず、Perplexity AI が彼の Web サイト、Radweb および MacStories のコンテンツにアクセスしていたことを明らかにしました。
サーバー ログの分析により、 PerplexityBot は、ヘッドレス ブラウザを介して動作し、Windows 上の Google Chrome などの一般的なユーザー エージェント文字列で ID をマスクするなど、欺瞞的な手法を使用して制限を回避していました。
これらの方法により、制限されたコンテンツをスクレイピングしながら検出を回避することができました。当初、Perplexity AI はこれらの制限を回避する機能を否定していましたが、後に倫理上の誤りを認め、「制限されたコンテンツの要約は行われるべきではなかった。
MacStories の Federico Viticci 氏は Knight 氏の調査結果を認め、PerplexityBot をブロックするために追加のサーバーレベルの対策が導入されたと説明しました。しかし、これらの高度な保護でさえも確実ではなく、Web クローリングにおける倫理基準への準拠を確保することの難しさを浮き彫りにしました。
Perplexity AI の場合、ナイト氏は、その IP 範囲が公に知られている企業が所有するものと一致しないと指摘しました。に対処し、執行の取り組みをさらに複雑にしています。これは、ますます高度化する AI ボットによってもたらされる課題に対処するための、より堅牢なツールと規制の枠組みの必要性を浮き彫りにしています。
しかし、AI 開発者に対する著作権訴訟の増加が示すように、この慣行は Perplexity だけではありません。ニューヨーク タイムズは、コンテンツ盗難を巡ってマイクロソフトと OpenAI を相手取った高額の訴訟に巻き込まれています。
この訴訟は、AI を管理するためのより厳格な基準を求めているメディア間の不満の大きな波の一例にすぎません。データ収集。