A gigante da gigante da infraestrutura da web lançou uma grande atualização no livro de regras de três décadas da Internet para rastreadores da web. e empresas de IA, abordando preocupações generalizadas com dados não compensados, raspando que ameaçam o modelo econômico da Web aberta. sinalizando uma mudança significativa na batalha em andamento pelos dados da IA.
Esta iniciativa confronta diretamente as limitações do protocolo de exclusão de robôs originais. Proposto em 1994, `robots.txt` foi projetado para impedir a sobrecarga do servidor dizendo a rastreadores quais páginas a serem evitadas. brecha. As empresas de IA precisam de vastas tesouros de dados para treinar seus modelos, e a Web aberta se tornou sua fonte principal. O CEO da Alliance de Notícias/Mídia, Danielle Coffey, capturou recentemente a frustração do setor, afirmando:”Os links foram a última qualidade redentora da pesquisa que deu aos editores tráfego e receita. Agora, o Google apenas pega o conteúdo da força e o usa sem retorno.”
Abertura do The New York Times Sujent Stuai Swaind Swainfued Swainfued Swain Times Stuai Swain Stuai Stuai Swain Times Swain Times Suwing Stuai Stuai Aberte A Open e a Microfile Acens.
O conflito não é apenas legal, mas técnico. Muitas empresas de IA foram acusadas de ignorar o `robots.txt`. A própria Cloudflare acusou recentemente a perplexidade AI de usar”rastreadores furtivos”para ignorar os blocos dos editores, uma reivindicação negada com a reivindicação veementemente. Essas disputas enfatizam a inadequação do antigo sistema de honra. Ele funciona integrando os comentários legíveis por humanos e uma nova diretiva legível por máquina diretamente no arquivo `robots.txt’do site. A política apresenta três sinais distintos. O sinal `ai-input` rege o uso em tempo real em respostas generativas de IA, como a geração de recuperação upmentada por recuperação (RAG). Finalmente, o sinal `ai-train` controla se o conteúdo pode ser usado para treinar ou ajustar os modelos de IA. Os operadores de sites podem expressar suas preferências com uma linha simples e delimitada por vírgula, como `Signal de Conteúdo: Search=Sim, Ai-Train=Não. Crucialmente, se um sinal for omitido, a política afirma que o proprietário do site nem subsídios nem restringem a permissão , deixando uma opção neutra. Para incentivar a adoção, o CloudFlare divulgou a política sob uma licença CC0 e fornece uma ferramenta geradora em contentsignals.org . Diretiva de direitos autorais. `ai-trein=não. A empresa deixou deliberadamente o sinal’ai-input` neutro nessa divisão, afirmando que não queria adivinhar as preferências de seus clientes por esse caso de uso específico. Esse movimento cria efetivamente uma opção enorme em escala na Web para o treinamento de IA por padrão. Como o protocolo original, os sinais de conteúdo são consultivos e não são tecnicamente aplicáveis.
Alguns maus atores podem simplesmente ignorar as novas regras. É por isso que o CloudFlare enquadra a política como uma”reserva de direitos”, fortalecendo a posição legal de um editor. A empresa lançou anteriormente”Ai Labyrinth”, uma ferramenta para prender os bots não compatíveis com labirintos de conteúdo falso e está testando”Pay por crawl”para deixar os sites cobrarem o acesso. Point permanece no Google. O testemunho durante o marco dos EUA v. Google Antitrust Trial revelou que a empresa usa sistemas de opção de opção separados para seus principais produtos de pesquisa e seus modelos de gêmeos AI. e corre o risco de perder o tráfego de pesquisa vital ou permitir o uso de conteúdo em geral.