GitHub プロジェクトが ROBOTS.TXT 経由で既知のすべての AI Web クローラーをブロックすることを提案

GitHub でホストされているプロジェクトでは、既知の AI クローラーによる Web サイトコンテンツへのアクセスをブロックするように設計された厳選された robots.txt ファイルが提供されています。

ai.robots.txt と呼ばれる取り組みは、オンラインマテリアルの保護を目的としています。許可なく大規模言語モデル (LLM) をトレーニングするために使用されることを禁止します。

このプロジェクトは、ブロックするように構成された既知の AI クローラーをリストしたシンプルなファイルを提供することで、開発者にデータの管理を強化するよう促し、AI 企業が倫理慣行を遵守することを奨励します。

このプロジェクトは、不透明な機能に対する開発者とパブリッシャーの間で高まっている不満を反映しています。 AI システムがトレーニングデータを収集するために使用する方法。コンプライアンスを強制することはできませんが、厳選された robots.txt は、テクノロジーがインターネットを再構築する AI 企業の倫理的責任にスポットライトを当てています。

厳選された robots.txt の仕組み

提供される robots.txt ファイルには、AI クローラーに関連付けられたユーザーエージェント名のオープンソースリストが含まれており、ボットのアクティビティを追跡する取り組みである Dark Visitors から部分的にソースされています。

開発者は、GitHub でプルリクエストを送信して更新に貢献することをお勧めします。これにより、新しいボットが出現してもリストが最新の状態に保たれます。このプロジェクトは AI 企業による自発的な遵守に依存していますが、コンテンツのアクセスと使用方法を管理しようとしているサイト所有者にとって切望されているツールを提供します。

厳選された robots.txt ファイルは貴重なツールを提供します。開発者にとって、その有効性は自発的なコンプライアンスに依存することで制限されます。多くの AI クローラーは、Googlebot などの従来の Web クローラーが尊重する倫理的境界の外で動作します。

ボットが人間の動作を模倣できるようにするヘッドレスブラウジングなどの高度な技術により、不正アクセスを特定してブロックすることが困難になります。

IP ブロックやカスタマイズされたサーバー側の対策などファイアウォールルールは、追加の保護を提供しますが、確実ではありません。

ますます多くのクローラーが AI を収集しています

伝えられるところによると、Microsoft の Bing クローラーは、このルールを尊重しています。 Reddit がそのコンテンツを Google にのみ提供し、Bing や DuckDuckGo などの他の検索エンジンをブロックし始めたときに明らかになったように、検索インデックスに robots.txt を使用しています。ただし、これは主に検索のためのページのクロールに関するものであり、大規模言語モデル (LLM) のトレーニングに関するものではありません。

メタの事例が示すように、大手テクノロジー企業は、データを取得するために怪しげな戦術を使用することを躊躇しません。彼らの AI トレーニング。同社は、海賊版の書籍や学術論文を含む未承認のデータセットを使用していると伝えられています。

AI トレーニングに動画を許可なく使用したとして Google 子会社と Nvidia に対して起こされた訴訟を見ると、YouTube クリエイターも同様の影響を受けています。

Perplexity AI: コンプライアンス問題を伴う事例

高度なクローリングボットブロックの必要性は、昨年、Perplexity AI に関連するインシデントを通じて特に明らかになりました。開発者の Robb Knight は、明示的な robots.txt ディレクティブと「403 Forbidden」応答を返すように設定されたサーバー側ブロックにもかかわらず、Perplexity AI が彼の Web サイト、Radweb および MacStories のコンテンツにアクセスしていたことを明らかにしました。

サーバーログの分析により、 PerplexityBot は、ヘッドレスブラウザを介して動作し、Windows 上の Google Chrome などの一般的なユーザーエージェント文字列で ID をマスクするなど、欺瞞的な手法を使用して制限を回避していました。

これらの方法により、制限されたコンテンツをスクレイピングしながら検出を回避することができました。当初、Perplexity AI はこれらの制限を回避する機能を否定していましたが、後に倫理上の誤りを認め、「制限されたコンテンツの要約は行われるべきではなかった。

MacStories の Federico Viticci 氏は Knight 氏の調査結果を認め、PerplexityBot をブロックするために追加のサーバーレベルの対策が導入されたと説明しました。しかし、これらの高度な保護でさえも確実ではなく、Web クローリングにおける倫理基準への準拠を確保することの難しさを浮き彫りにしました。

Perplexity AI の場合、ナイト氏は、その IP 範囲が公に知られている企業が所有するものと一致しないと指摘しました。に対処し、執行の取り組みをさらに複雑にしています。これは、ますます高度化する AI ボットによってもたらされる課題に対処するための、より堅牢なツールと規制の枠組みの必要性を浮き彫りにしています。

しかし、AI 開発者に対する著作権訴訟の増加が示すように、この慣行は Perplexity だけではありません。ニューヨークタイムズは、コンテンツ盗難を巡ってマイクロソフトと OpenAI を相手取った高額の訴訟に巻き込まれています。

この訴訟は、AI を管理するためのより厳格な基準を求めているメディア間の不満の大きな波の一例にすぎません。データ収集。

GitHub プロジェクトが ROBOTS.TXT 経由で既知のすべての AI Web クローラーをブロックすることを提案

Published by All Things Windows on January 14, 2025

厳選された robots.txt の仕組み

ますます多くのクローラーが AI を収集しています

Perplexity AI: コンプライアンス問題を伴う事例

IT Info

SEC、投資家に数百万ドルの損害を与えたTwitter乗っ取りで開示規則違反でイーロン・マスク氏を告訴

IT Info

2025 年 1 月のパッチ火曜日: Microsoft が Hyper-V、OLE などの 159 件の脆弱性にパッチを適用

IT Info

MicrosoftとOpenAI、NYT訴訟でのAIスクレイピングに関するパブリッシャーの著作権主張の棄却を求める

GitHub プロジェクトが ROBOTS.TXT 経由で既知のすべての AI Web クローラーをブロックすることを提案

Published by All Things Windows on January 14, 2025

厳選された robots.txt の仕組み

ますます多くのクローラーが AI を収集しています

Perplexity AI: コンプライアンス問題を伴う事例

Related Posts

IT Info

SEC、投資家に数百万ドルの損害を与えたTwitter乗っ取りで開示規則違反でイーロン・マスク氏を告訴

IT Info

2025 年 1 月のパッチ火曜日: Microsoft が Hyper-V、OLE などの 159 件の脆弱性にパッチを適用

IT Info

MicrosoftとOpenAI、NYT訴訟でのAIスクレイピングに関するパブリッシャーの著作権主張の棄却を求める