Um projeto hospedado no GitHub oferece um arquivo robots.txt selecionado, projetado para impedir que rastreadores de IA conhecidos acessem o conteúdo do site.

A iniciativa chamada ai.robots.txt visa proteger materiais on-line de ser usado para treinar grandes modelos de linguagem (LLMs) sem permissão.

Ao oferecer um arquivo simples que lista rastreadores de IA conhecidos configurados para bloqueio, o projeto convida os desenvolvedores a exercerem maior controle sobre seus dados e incentiva as empresas de IA a aderirem a práticas éticas.

O projeto reflete a crescente frustração entre desenvolvedores e editores com os métodos opacos que os sistemas de IA usam para coletar dados de treinamento. Embora não possa garantir a conformidade, o robots.txt com curadoria destaca as responsabilidades éticas das empresas de IA à medida que suas tecnologias remodelam a Internet.

Como funciona o Robots.txt com curadoria

O arquivo robots.txt oferecido inclui uma lista de código aberto de nomes de agentes de usuários associados a rastreadores de IA, proveniente em parte do Dark Visitors, uma iniciativa que rastreia a atividade de bots.

Os desenvolvedores são encorajados para contribuir com atualizações enviando pull requests no GitHub, garantindo que a lista permaneça atualizada à medida que novos bots surgem. Embora dependa da adesão voluntária de empresas de IA, o projeto fornece uma ferramenta muito necessária para proprietários de sites que buscam gerenciar como seu conteúdo é acessado e usado.

Embora o arquivo robots.txt selecionado forneça uma ferramenta valiosa para os desenvolvedores, a sua eficácia é limitada pela dependência do cumprimento voluntário. Muitos rastreadores de IA operam fora dos limites éticos respeitados pelos rastreadores da web tradicionais, como o Googlebot.

Técnicas avançadas, como a navegação sem cabeça, que permite que os bots imitem o comportamento humano, dificultam a identificação e o bloqueio do acesso não autorizado.

Medidas do lado do servidor, como bloqueio de IP e medidas personalizadas regras de firewall oferecem proteção adicional, mas não são infalíveis.

Mais e mais rastreadores estão coletando IA

O rastreador Bing da Microsoft supostamente está respeitando o robots.txt para isso é índice de busca, como ficou claro quando o Reddit passou a oferecer seu conteúdo exclusivamente ao Google e a bloquear outros buscadores como Bing e DuckDuckGo. No entanto, tratava-se principalmente de rastrear páginas para pesquisa e não de treinamento de Large Language Models (LLMs).

Como mostra o caso do Meta, as grandes empresas de tecnologia não estão evitando usar táticas duvidosas para obter dados para seu treinamento em IA. A empresa supostamente tem usado conjuntos de dados não autorizados com livros e artigos acadêmicos piratas.

Os criadores do YouTube são afetados de maneira semelhante, como mostram ações judiciais movidas contra a subsidiária do Google e a Nvidia, que alegam usar vídeos sem permissão para treinamento de IA.

Perplexity AI: um caso com problemas de conformidade

A necessidade de bloqueio avançado de bots de rastreamento tornou-se particularmente evidente no ano passado por meio de incidentes envolvendo a Perplexity AI. O desenvolvedor Robb Knight descobriu que a Perplexity AI acessava conteúdo de seus sites, Radweb e MacStories, apesar das diretivas robots.txt explícitas e dos blocos do lado do servidor configurados para retornar respostas “403 Forbidden”.

Uma análise dos logs do servidor revelou que o PerplexityBot usou técnicas enganosas para contornar as restrições, como operar por meio de navegadores headless e mascarar sua identidade com strings de agente de usuário comuns, como o Google Chrome no Windows.

Esses métodos permitiram que ele fizesse isso. evitar a detecção ao extrair conteúdo restrito Inicialmente, a Perplexity AI negou a capacidade de contornar essas restrições. No entanto, mais tarde eles admitiram lapsos éticos, afirmando: “Resumir o conteúdo restrito não deveria ter acontecido.”

Federico do MacStories. Viticci confirmou as descobertas de Knight, explicando que medidas adicionais em nível de servidor foram implementadas para bloquear o PerplexityBot. No entanto, mesmo essas proteções avançadas não eram infalíveis, destacando a dificuldade de garantir a conformidade com os padrões éticos no rastreamento da web.

No caso da Perplexity AI, Knight observou que seus intervalos de IP não correspondiam a nenhum de propriedade da empresa publicamente conhecida. endereços, complicando ainda mais os esforços de fiscalização. Isto realça a necessidade de ferramentas e quadros regulamentares mais robustos para enfrentar os desafios colocados pelos bots de IA cada vez mais sofisticados.

No entanto, a perplexidade não está sozinha nesta prática, como mostra o número crescente de ações judiciais de direitos de autor contra criadores de IA. O New York Times está envolvido em um processo caro contra a Microsoft e a OpenAI por roubo de conteúdo.

O caso é apenas um exemplo de uma onda maior de insatisfação entre os meios de comunicação, que pediram padrões mais rígidos para governar a IA coleta de dados.

Categories: IT Info