Ofertas do projeto GitHub para bloquear todos os rastreadores da Web de IA conhecidos via ROBOTS.TXT

Um projeto hospedado no GitHub oferece um arquivo robots.txt selecionado, projetado para impedir que rastreadores de IA conhecidos acessem o conteúdo do site.

A iniciativa chamada ai.robots.txt visa proteger materiais on-line de ser usado para treinar grandes modelos de linguagem (LLMs) sem permissão.

Ao oferecer um arquivo simples que lista rastreadores de IA conhecidos configurados para bloqueio, o projeto convida os desenvolvedores a exercerem maior controle sobre seus dados e incentiva as empresas de IA a aderirem a práticas éticas.

O projeto reflete a crescente frustração entre desenvolvedores e editores com os métodos opacos que os sistemas de IA usam para coletar dados de treinamento. Embora não possa garantir a conformidade, o robots.txt com curadoria destaca as responsabilidades éticas das empresas de IA à medida que suas tecnologias remodelam a Internet.

Como funciona o Robots.txt com curadoria

O arquivo robots.txt oferecido inclui uma lista de código aberto de nomes de agentes de usuários associados a rastreadores de IA, proveniente em parte do Dark Visitors, uma iniciativa que rastreia a atividade de bots.

Os desenvolvedores são encorajados para contribuir com atualizações enviando pull requests no GitHub, garantindo que a lista permaneça atualizada à medida que novos bots surgem. Embora dependa da adesão voluntária de empresas de IA, o projeto fornece uma ferramenta muito necessária para proprietários de sites que buscam gerenciar como seu conteúdo é acessado e usado.

Embora o arquivo robots.txt selecionado forneça uma ferramenta valiosa para os desenvolvedores, a sua eficácia é limitada pela dependência do cumprimento voluntário. Muitos rastreadores de IA operam fora dos limites éticos respeitados pelos rastreadores da web tradicionais, como o Googlebot.

Técnicas avançadas, como a navegação sem cabeça, que permite que os bots imitem o comportamento humano, dificultam a identificação e o bloqueio do acesso não autorizado.

Medidas do lado do servidor, como bloqueio de IP e medidas personalizadas regras de firewall oferecem proteção adicional, mas não são infalíveis.

Mais e mais rastreadores estão coletando IA

O rastreador Bing da Microsoft supostamente está respeitando o robots.txt para isso é índice de busca, como ficou claro quando o Reddit passou a oferecer seu conteúdo exclusivamente ao Google e a bloquear outros buscadores como Bing e DuckDuckGo. No entanto, tratava-se principalmente de rastrear páginas para pesquisa e não de treinamento de Large Language Models (LLMs).

Como mostra o caso do Meta, as grandes empresas de tecnologia não estão evitando usar táticas duvidosas para obter dados para seu treinamento em IA. A empresa supostamente tem usado conjuntos de dados não autorizados com livros e artigos acadêmicos piratas.

Os criadores do YouTube são afetados de maneira semelhante, como mostram ações judiciais movidas contra a subsidiária do Google e a Nvidia, que alegam usar vídeos sem permissão para treinamento de IA.

Perplexity AI: um caso com problemas de conformidade

A necessidade de bloqueio avançado de bots de rastreamento tornou-se particularmente evidente no ano passado por meio de incidentes envolvendo a Perplexity AI. O desenvolvedor Robb Knight descobriu que a Perplexity AI acessava conteúdo de seus sites, Radweb e MacStories, apesar das diretivas robots.txt explícitas e dos blocos do lado do servidor configurados para retornar respostas “403 Forbidden”.

Uma análise dos logs do servidor revelou que o PerplexityBot usou técnicas enganosas para contornar as restrições, como operar por meio de navegadores headless e mascarar sua identidade com strings de agente de usuário comuns, como o Google Chrome no Windows.

Esses métodos permitiram que ele fizesse isso. evitar a detecção ao extrair conteúdo restrito Inicialmente, a Perplexity AI negou a capacidade de contornar essas restrições. No entanto, mais tarde eles admitiram lapsos éticos, afirmando: “Resumir o conteúdo restrito não deveria ter acontecido.”

Federico do MacStories. Viticci confirmou as descobertas de Knight, explicando que medidas adicionais em nível de servidor foram implementadas para bloquear o PerplexityBot. No entanto, mesmo essas proteções avançadas não eram infalíveis, destacando a dificuldade de garantir a conformidade com os padrões éticos no rastreamento da web.

No caso da Perplexity AI, Knight observou que seus intervalos de IP não correspondiam a nenhum de propriedade da empresa publicamente conhecida. endereços, complicando ainda mais os esforços de fiscalização. Isto realça a necessidade de ferramentas e quadros regulamentares mais robustos para enfrentar os desafios colocados pelos bots de IA cada vez mais sofisticados.

No entanto, a perplexidade não está sozinha nesta prática, como mostra o número crescente de ações judiciais de direitos de autor contra criadores de IA. O New York Times está envolvido em um processo caro contra a Microsoft e a OpenAI por roubo de conteúdo.

O caso é apenas um exemplo de uma onda maior de insatisfação entre os meios de comunicação, que pediram padrões mais rígidos para governar a IA coleta de dados.

Ofertas do projeto GitHub para bloquear todos os rastreadores da Web de IA conhecidos via ROBOTS.TXT

Published by All Things Windows on January 14, 2025

Como funciona o Robots.txt com curadoria

Mais e mais rastreadores estão coletando IA

Perplexity AI: um caso com problemas de conformidade

IT Info

Microsoft e OpenAI pressionam para rejeitar reivindicações de direitos autorais de editores sobre IA Scraping no caso do NYT

IT Info

SEC processa Elon Musk por quebrar regras de divulgação na aquisição do Twitter que custou milhões aos investidores

IT Info

CORREÇÃO: A imagem do Windows RE não foi encontrada. (Resolvido)

Ofertas do projeto GitHub para bloquear todos os rastreadores da Web de IA conhecidos via ROBOTS.TXT

Published by All Things Windows on January 14, 2025

Como funciona o Robots.txt com curadoria

Mais e mais rastreadores estão coletando IA

Perplexity AI: um caso com problemas de conformidade

Related Posts

IT Info

Microsoft e OpenAI pressionam para rejeitar reivindicações de direitos autorais de editores sobre IA Scraping no caso do NYT

IT Info

SEC processa Elon Musk por quebrar regras de divulgação na aquisição do Twitter que custou milhões aos investidores

IT Info

CORREÇÃO: A imagem do Windows RE não foi encontrada. (Resolvido)