Um projeto hospedado no GitHub oferece um arquivo robots.txt selecionado, projetado para impedir que rastreadores de IA conhecidos acessem o conteúdo do site.
A iniciativa chamada ai.robots.txt visa proteger materiais on-line de ser usado para treinar grandes modelos de linguagem (LLMs) sem permissão.
Ao oferecer um arquivo simples que lista rastreadores de IA conhecidos configurados para bloqueio, o projeto convida os desenvolvedores a exercerem maior controle sobre seus dados e incentiva as empresas de IA a aderirem a práticas éticas.
O projeto reflete a crescente frustração entre desenvolvedores e editores com os métodos opacos que os sistemas de IA usam para coletar dados de treinamento. Embora não possa garantir a conformidade, o robots.txt com curadoria destaca as responsabilidades éticas das empresas de IA à medida que suas tecnologias remodelam a Internet.
Como funciona o Robots.txt com curadoria
O arquivo robots.txt oferecido inclui uma lista de código aberto de nomes de agentes de usuários associados a rastreadores de IA, proveniente em parte do Dark Visitors, uma iniciativa que rastreia a atividade de bots.
Os desenvolvedores são encorajados para contribuir com atualizações enviando pull requests no GitHub, garantindo que a lista permaneça atualizada à medida que novos bots surgem. Embora dependa da adesão voluntária de empresas de IA, o projeto fornece uma ferramenta muito necessária para proprietários de sites que buscam gerenciar como seu conteúdo é acessado e usado.
Embora o arquivo robots.txt selecionado forneça uma ferramenta valiosa para os desenvolvedores, a sua eficácia é limitada pela dependência do cumprimento voluntário. Muitos rastreadores de IA operam fora dos limites éticos respeitados pelos rastreadores da web tradicionais, como o Googlebot.
Técnicas avançadas, como a navegação sem cabeça, que permite que os bots imitem o comportamento humano, dificultam a identificação e o bloqueio do acesso não autorizado.
Medidas do lado do servidor, como bloqueio de IP e medidas personalizadas regras de firewall oferecem proteção adicional, mas não são infalíveis.
Mais e mais rastreadores estão coletando IA
O rastreador Bing da Microsoft supostamente está respeitando o robots.txt para isso é índice de busca, como ficou claro quando o Reddit passou a oferecer seu conteúdo exclusivamente ao Google e a bloquear outros buscadores como Bing e DuckDuckGo. No entanto, tratava-se principalmente de rastrear páginas para pesquisa e não de treinamento de Large Language Models (LLMs).
Como mostra o caso do Meta, as grandes empresas de tecnologia não estão evitando usar táticas duvidosas para obter dados para seu treinamento em IA. A empresa supostamente tem usado conjuntos de dados não autorizados com livros e artigos acadêmicos piratas.
Os criadores do YouTube são afetados de maneira semelhante, como mostram ações judiciais movidas contra a subsidiária do Google e a Nvidia, que alegam usar vídeos sem permissão para treinamento de IA.
Perplexity AI: um caso com problemas de conformidade
A necessidade de bloqueio avançado de bots de rastreamento tornou-se particularmente evidente no ano passado por meio de incidentes envolvendo a Perplexity AI. O desenvolvedor Robb Knight descobriu que a Perplexity AI acessava conteúdo de seus sites, Radweb e MacStories, apesar das diretivas robots.txt explícitas e dos blocos do lado do servidor configurados para retornar respostas “403 Forbidden”.
Uma análise dos logs do servidor revelou que o PerplexityBot usou técnicas enganosas para contornar as restrições, como operar por meio de navegadores headless e mascarar sua identidade com strings de agente de usuário comuns, como o Google Chrome no Windows.
Esses métodos permitiram que ele fizesse isso. evitar a detecção ao extrair conteúdo restrito Inicialmente, a Perplexity AI negou a capacidade de contornar essas restrições. No entanto, mais tarde eles admitiram lapsos éticos, afirmando: “Resumir o conteúdo restrito não deveria ter acontecido.”
Federico do MacStories. Viticci confirmou as descobertas de Knight, explicando que medidas adicionais em nível de servidor foram implementadas para bloquear o PerplexityBot. No entanto, mesmo essas proteções avançadas não eram infalíveis, destacando a dificuldade de garantir a conformidade com os padrões éticos no rastreamento da web.
No caso da Perplexity AI, Knight observou que seus intervalos de IP não correspondiam a nenhum de propriedade da empresa publicamente conhecida. endereços, complicando ainda mais os esforços de fiscalização. Isto realça a necessidade de ferramentas e quadros regulamentares mais robustos para enfrentar os desafios colocados pelos bots de IA cada vez mais sofisticados.
No entanto, a perplexidade não está sozinha nesta prática, como mostra o número crescente de ações judiciais de direitos de autor contra criadores de IA. O New York Times está envolvido em um processo caro contra a Microsoft e a OpenAI por roubo de conteúdo.
O caso é apenas um exemplo de uma onda maior de insatisfação entre os meios de comunicação, que pediram padrões mais rígidos para governar a IA coleta de dados.