Webインフラストラクチャの巨人CloudFlareは、Webクローラー向けのインターネットの3年前のルールブックの大規模な更新を開始しました。

同社は、「コンテンツシグナルポリシー」を導入しました。 AI企業は、オープンウェブの経済モデルを脅かす非補償データスクレイピングに対する広範な懸念に対処しています。 AIデータをめぐる進行中の戦いに大きな変化を示す。 1994年に最初に提案された「robots.txt」は、クローラーに避けるべきページをクローラーに伝えることでサーバーの過負荷を防ぐように設計されています。ギャップ。 AI企業は、モデルをトレーニングするために膨大なデータを必要とし、オープンWebが主要なソースになりました。ダニエル・アライアンスのCEOであるダニエル・コフィーが最近、業界のフラストレーションを最近捉え、「リンクは出版社の交通と収益を得るための最後の償還の質であるため、リンクは最後に償還された償還の質であり、現在、Googleはそれを返品なしでそれを使用し、

を使用しています。」

紛争は単なる合法ではなく、技術的です。多くのAI企業は、「robots.txt」を完全に無視していると非難されています。 CloudFlare自体は最近、「ステルスクローラー」を使用してパブリッシャーブロックをバイパスしたと非難AIを非難しました。これらの紛争は、古い名誉制度の不十分さを強調しています。

新しいコンテンツシグナルポリシーがどのように機能するか

Cloudflareのコンテンツシグナルポリシーは、特異性の新しい層を追加してこのシステムを近代化しようとします。これは、人間の読み取り可能なコメントと新しいマシン読み取り可能なディレクティブの両方をサイトの「robots.txt」ファイルに直接統合することで機能します。

目標は、クローラーがアクセスした後にコンテンツを使用する方法の明確な標準を作成することです。ポリシーは3つの異なる信号を導入します。

「検索」信号により、ハイパーリンクや短い抜粋などの従来の検索インデックスの構築にコンテンツを使用できますが、AIに生成された概要は明示的に除外されます。 `ai-input`信号は、検索された生成(RAG)などの生成AI回答でのリアルタイムの使用を管理します。最後に、「AI-train」信号​​は、コンテンツを使用してAIモデルのトレーニングまたは微調整に使用できるかどうかを制御します。ウェブサイトのオペレーターは、「コンテンツシグナル:はい=はい、ai-train=no」などのシンプルなコンマ拘束された行で好みを表現できます。重要なことに、信号が省略されている場合、ポリシーは、ウェブサイトの所有者許可も制限も制限しないと述べていますは、ニュートラルオプションを残します。採用を促進するために、CloudFlareはCC0ライセンスの下でポリシーをリリースし、 contentsignals.org 。著作権指示。同社は、このロールアウトに「AI-Input」シグナルがニュートラルを故意に残し、その特定のユースケースに対する顧客の好みを推測したくないと述べています。この動きは、デフォルトでAIトレーニングのための大規模なWebスケールのオプトアウトを効果的に作成します。

コンプライアンスコナンドムとGoogleの質問

重要なステップであるが、ポリシーの成功は自発的なコンプライアンスにかかっています。元のプロトコルと同様に、コンテンツシグナルはアドバイザリーであり、技術的に強制力がありません。

一部の悪い俳優は、単に新しいルールを無視する場合があります。これが、CloudFlareがポリシーを「権利の留保」として枠組みし、出版社の法的地位を強化する理由です。同社は以前、偽のコンテンツの迷路で非遵守ボットを閉じ込めるツール「AI Labyrinth」を立ち上げ、「Cay Per Crawl」をテストして、サイトがアクセスのために請求するようにします。固定ポイントはGoogleのままです。ランドマークの米国対Google反トラストトライアル中の証言により、会社はコア検索製品とジェミニAIモデルに個別のオプトアウトシステムを使用していることが明らかになりました。 GoogleのAI機能は、重要な検索トラフィックを失うか、コンテンツを全面的に使用できるようにします。

Googleのような主要なプレーヤーが新しい標準を採用するか、より明確で統一されたコントロールを提供するまで、出版社は可視性とコントロールの間に逮捕され、Webの将来の戦いは続きます。

Categories: IT Info