Un proyecto alojado en GitHub ofrece un archivo robots.txt seleccionado diseñado para impedir que los rastreadores de IA conocidos accedan al contenido del sitio web.
La iniciativa denominada ai.robots.txt tiene como objetivo proteger los materiales en línea de ser utilizado para entrenar modelos de lenguaje grandes (LLM) sin permiso.
Al ofrecer un archivo simple que enumera los rastreadores de IA conocidos configurados para bloquear, el proyecto invita a los desarrolladores a ejercer un mayor control sobre sus datos y alienta a las empresas de IA a adherirse a prácticas éticas.
El proyecto refleja la creciente frustración entre desarrolladores y editores con los métodos opacos de los sistemas de IA. utilizar para recopilar datos de entrenamiento. Si bien no puede imponer el cumplimiento, su archivo robots.txt seleccionado pone de relieve las responsabilidades éticas de las empresas de IA a medida que sus tecnologías remodelan Internet.
Cómo funciona el archivo Curated Robots.txt
El archivo robots.txt ofrecido incluye una lista de código abierto de nombres de agentes de usuario asociados con rastreadores de IA, provenientes en parte de Dark Visitantes, una iniciativa que rastrea la actividad de los bots.
Se anima a los desarrolladores contribuir actualizaciones enviando solicitudes de extracción en GitHub, lo que garantiza que la lista permanezca actualizada a medida que surgen nuevos bots. Si bien depende de la adhesión voluntaria de las empresas de inteligencia artificial, el proyecto proporciona una herramienta muy necesaria para los propietarios de sitios que buscan gestionar cómo se accede y utiliza su contenido.
Si bien el archivo robots.txt seleccionado proporciona una herramienta valiosa para los desarrolladores, su eficacia está limitada por la dependencia del cumplimiento voluntario. Muchos rastreadores de IA operan fuera de los límites éticos respetados por los rastreadores web tradicionales como Googlebot.
Las técnicas avanzadas, como la navegación sin cabeza, que permite a los robots imitar el comportamiento humano, dificultan la identificación y el bloqueo del acceso no autorizado.
Medidas del lado del servidor, como el bloqueo de IP y la personalización Las reglas de firewall ofrecen protección adicional pero no son infalibles.
Cada vez más rastreadores están aprovechando la IA
Se informa que el rastreador Bing de Microsoft respeta el archivo robots.txt para su índice de búsqueda, como quedó claro cuando Reddit comenzó a ofrecer su contenido exclusivamente a Google y a bloquear otros motores de búsqueda como Bing y DuckDuckGo. Sin embargo, se trataba principalmente de rastrear páginas para realizar búsquedas y no de entrenar modelos de lenguajes grandes (LLM).
Como muestra el caso de Meta, las grandes empresas tecnológicas no rehuyen el uso de tácticas turbias para obtener datos para su entrenamiento en IA. Según se informa, la empresa ha estado utilizando conjuntos de datos no autorizados con libros y artículos académicos pirateados.
Los creadores de YouTube se ven afectados de manera similar, como muestran las demandas presentadas contra la filial de Google y Nvidia, que alegan que utilizaron vídeos sin permiso para el entrenamiento de IA.
Perplejidad AI: Un caso con problemas de cumplimiento
La necesidad de un bloqueo avanzado de robots de rastreo se hizo particularmente evidente el año pasado a través de incidentes que involucraron a Perplexity AI. El desarrollador Robb Knight descubrió que Perplexity AI accedió al contenido de sus sitios web, Radweb y MacStories, a pesar de directivas explícitas de robots.txt y bloques del lado del servidor configurados para devolver respuestas”403 Prohibido”.
Un análisis de los registros del servidor reveló que PerplexityBot utilizó técnicas engañosas para eludir las restricciones, como operar a través de navegadores sin cabeza y enmascarar su identidad con cadenas de agentes de usuario comunes como Google Chrome en Windows.
Estos métodos. le permitió evadir la detección mientras extraía contenido restringido. Inicialmente, Perplexity AI negó la capacidad de eludir estas restricciones. Sin embargo, luego admitió errores éticos y afirmó:”Resumir contenido restringido no debería haber ocurrido”.
Federico Viticci de MacStories confirmó los hallazgos de Knight y explicó que se habían implementado medidas adicionales a nivel de servidor para bloquear PerplexityBot. Sin embargo, ni siquiera estas protecciones avanzadas eran infalibles, lo que resalta la dificultad de garantizar el cumplimiento de los estándares éticos en el rastreo web.
En el caso de Perplexity AI, Knight señaló que sus rangos de IP no coincidían con ningún rango de propiedad intelectual conocido públicamente. direcciones, lo que complica aún más los esfuerzos de aplicación de la ley. Esto pone de relieve la necesidad de herramientas y marcos regulatorios más sólidos para abordar los desafíos que plantean los robots de IA cada vez más sofisticados.
Sin embargo, la perplejidad no es la única en esta práctica, como lo demuestra el creciente número de demandas por derechos de autor contra desarrolladores de IA. El New York Times está involucrado en una costosa demanda contra Microsoft y OpenAI por robo de contenido.
El caso es sólo un ejemplo de una ola mayor de insatisfacción entre los medios de comunicación, que han pedido estándares más estrictos para regular la IA. recopilación de datos.