Un projet hébergé sur GitHub propose un fichier robots.txt organisé conçu pour empêcher les robots d’exploration IA connus d’accéder au contenu du site Web.
L’initiative appelée ai.robots.txt vise à protéger les documents en ligne d’être utilisé pour former de grands modèles de langage (LLM) sans autorisation.
En proposant un fichier simple répertoriant les robots d’exploration d’IA connus configurés pour le blocage, le projet invite les développeurs à exercer un plus grand contrôle sur leurs données et encourage les entreprises d’IA à adhérer à des pratiques éthiques.
Le projet reflète la frustration croissante des développeurs et des éditeurs face aux méthodes opaques utilisées par les systèmes d’IA pour collecter les formations. données. Bien qu’il ne puisse pas assurer la conformité, leur fichier robots.txt organisé met en lumière les responsabilités éthiques des entreprises d’IA alors que leurs technologies remodèlent Internet.
Comment fonctionne le fichier Robots.txt organisé
Le fichier robots.txt proposé comprend une liste open source de noms d’agents utilisateurs associés aux robots d’exploration IA, provenant en partie de Dark Visitors, une initiative qui suit l’activité des robots.
Les développeurs sont encouragés pour contribuer aux mises à jour en soumettant un pull requêtes sur GitHub, garantissant que la liste reste à jour à mesure que de nouveaux robots émergent. Bien qu’il repose sur l’adhésion volontaire des entreprises d’IA, le projet fournit un outil indispensable aux propriétaires de sites cherchant à gérer la façon dont leur contenu est consulté et utilisé.
Alors que le fichier robots.txt organisé fournit un outil précieux pour les développeurs, son efficacité est limitée par le recours à une conformité volontaire. De nombreux robots d’exploration IA opèrent en dehors des limites éthiques respectées par les robots d’exploration Web traditionnels comme Googlebot.
Les techniques avancées telles que la navigation sans tête, qui permet aux robots d’imiter le comportement humain, rendent plus difficile l’identification et le blocage des accès non autorisés.
Mesures côté serveur, telles que le blocage IP et la personnalisation les règles de pare-feu offrent une protection supplémentaire mais ne sont pas infaillibles.
De plus en plus de robots récoltent pour l’IA
Le robot d’exploration Bing de Microsoft respecterait le fichier robots.txt pour c’est index de recherche, comme cela est devenu clair lorsque Reddit a commencé à proposer son contenu exclusivement à Google et à bloquer d’autres moteurs de recherche comme Bing et DuckDuckGo. Cependant, il s’agissait principalement d’explorer des pages à des fins de recherche et non de formation de grands modèles linguistiques (LLM).
Comme le montre le cas de Meta, les grandes entreprises technologiques n’hésitent pas à utiliser des tactiques louches pour obtenir des données pour leur formation en IA. La société aurait utilisé des ensembles de données non autorisés contenant des livres et des articles universitaires piratés.
Les créateurs YouTube sont affectés de la même manière, comme le montrent les poursuites intentées contre la filiale Google et Nvidia, qui allèguent avoir utilisé des vidéos sans autorisation pour la formation à l’IA.
Perplexity AI: Un cas avec des problèmes de conformité
La nécessité d’un blocage avancé des robots d’exploration est devenue particulièrement évidente l’année dernière à la suite d’incidents impliquant Perplexity AI. Le développeur Robb Knight a découvert que Perplexity AI accédait au contenu de ses sites Web, Radweb et MacStories, malgré les directives robots.txt explicites et les blocages côté serveur configurés pour renvoyer des réponses « 403 Forbidden ».
Une analyse des journaux du serveur a révélé que PerplexityBot a utilisé des techniques trompeuses pour contourner les restrictions, telles que le fonctionnement via des navigateurs sans tête et le masquage de son identité avec des chaînes d’agent utilisateur courantes comme Google Chrome sur Windows
Ces méthodes l’ont autorisé. pour échapper à la détection tout en récupérant du contenu restreint. Initialement, Perplexity AI a nié la possibilité de contourner ces restrictions. Cependant, ils ont ensuite admis des manquements éthiques, déclarant : “Résumer le contenu restreint n’aurait pas dû se produire.”
MacStories. Federico Viticci a confirmé les conclusions de Knight, expliquant que des mesures supplémentaires au niveau du serveur avaient été déployées pour bloquer PerplexityBot. Cependant, même ces protections avancées n’étaient pas infaillibles, soulignant la difficulté de garantir le respect des normes éthiques en matière d’exploration du Web.
Dans le cas de Perplexity AI, Knight a noté que ses plages d’adresses IP ne correspondaient à aucune entreprise publiquement connue. adresses, ce qui complique encore davantage les efforts d’application. Cela souligne la nécessité d’outils et de cadres réglementaires plus robustes pour relever les défis posés par des robots IA de plus en plus sophistiqués.
La perplexité n’est cependant pas la seule dans cette pratique, comme le montre le nombre croissant de poursuites pour droits d’auteur contre les développeurs d’IA. Le New York Times est impliqué dans un procès coûteux contre Microsoft et OpenAI pour vol de contenu.
Cette affaire n’est qu’un exemple d’une plus grande vague de mécontentement parmi les médias, qui ont réclamé des normes plus strictes pour régir l’IA. collecte de données.