CloudFlare a lancé un nouveau système de défense de bot, renversant les tactiques de sécurité Web conventionnelles en trompant plutôt que de bloquer les grabyfacteurs AI indésirables.

Le nouvel outil, appelé AI Labyrinth Des pages générées par l’AI qui imitent le contenu authentique mais ne servent à rien de réel, gaspillant les ressources et révélant des modèles comportementaux.

Plutôt que d’émettre un déni, CloudFlare attire discrètement les bots avec des liens invisibles intégrés dans des pages réelles-des liens que les utilisateurs légitimes ne voient jamais.

Une fois suivi, les grattoirs sont conduits dans un piège rempli d’éléments de texte et de conception fabriqués qui simulent de vrais webpages. Si un grattoir AI consomme des pages qui ne sont pas réelles, alors il n’obtient pas la valeur qu’il espérait obtenir, a expliqué la société dans son annonce officielle.

Du blocage passif à la ciblage des ressources bot

L’approche de Cloudflare répond à la préoccupation croissante que les sociétés AI ignirent souvent des robots. Au lieu d’espérer que les robots se conforment, AI Labyrinth capitalise sur leur non-conformité.

Les fausses pages sont liées à l’aide d’attributs rel=”nofollow”, conçus pour éviter l’indexation par les moteurs de recherche mais restent visibles pour les programmes agressifs qui ne tiennent pas compte du protocole.

Surt

AI Labyrinth n’est pas une fonctionnalité autonome-c’est la dernière évolution de la stratégie anti-bot plus large de Cloudflare. En 2024, la société a introduit une solution en un clic pour bloquer les grattoirs AI connus, accompagnés d’outils d’analyse du trafic pour signaler les comportements suspects.

Deux mois plus tard, CloudFlare a étendu ces outils à tous les utilisateurs, offrant des tableaux de bord pour surveiller l’activité du robot et des opto-outs simplifiés pour les principaux bots AI comme le cloudflare d’Openai vers le gptbot.

Déception

Le passage à la tromperie n’est pas théorique. Il a été motivé par des violations répétées des protocoles d’accès de base. En juin 2024, le développeur Robb Knight a exposé comment la perplexité AI a accédé à des sections bloquées de ses sites Web Radweb et MacStories, même après avoir interdit explicitement le bot dans Robots.txt et renvoyé 403 codes d’état à travers des filtres de niveau Nginx.

Le bot s’est déshabillé à l’aide d’un utilisateur chromé standard.

Malgré la confirmation que ses méthodes de blocage fonctionnaient comme prévu, les journaux de serveurs de Knight ont montré un accès non autorisé non autorisé.

Après l’examen public, la perplexité a mis à jour sa documentation pour reconnaître l’incident, déclarant que le résumé de tels contenus allait à l’encontre des normes éthiques et n’aurait pas dû se produire.

Ces problèmes n’étaient pas isolés. Vers la même époque, Forbes a accusé la perplexité d’utiliser l’un de ses rapports d’enquête dans un podcast généré par l’AI-AI sans crédit. L’article original a été reproduit sur la plate-forme de Perplexity d’une manière qui a imité le résumé humain tout en omettant l’attribution.

Le comportement de la perplexité a suscité des critiques plus larges des éditeurs. Amazon a également lancé une enquête interne sur des plaintes similaires plus tard en juin.

Les signaux comportementaux alimentent une boucle de rétroaction

CloudFlare rapporte que d’ici le milieu de 2024, les bots AI rampaient à environ 39% des sites Web Top One Million sur sa plate-forme. noté dans leur mise à jour de septembre 2024. Ces chiffres reflètent la frustration croissante de la part des éditeurs sur la formation des modèles d’IA qui s’appuie fortement sur les accessions publiques-mais pas librement licencié-le contenu.

AI Labyrinth exploite la propre activité du bot pour créer une intelligence exploitable. Alors que les bots crawent des pages, Cloudflare capture les signatures comportementales-adresses IP, modèles de synchronisation, chemins de navigation-qui révèlent si la demande provient d’un utilisateur légitime ou d’un agent automatisé.

Ce processus forme en continu les modèles de détection de Cloudflare, ce qui rend les futures identifications plus rapides et plus excitantes.

Le système profite également de la rétroaction de l’utilisateur. Les propriétaires de sites Web peuvent signaler des robots suspects via le tableau de bord de CloudFlare. Les délinquants confirmés sont ajoutés à une liste noire interne, ce qui rend plus difficile pour les acteurs répétés de passer sans être détectés. Ces outils complètent les tactiques basées sur la tromperie avec une application adaptative en cours.

Implications commerciales derrière la défense

Bien que positionnée comme une solution de sécurité, AI Labyrinthe fait allusion aux ambitions plus larges de Cloudflare. Dans le même déploiement de septembre qui a introduit un blocage de bot étendu, la société a lancé le concept d’un marché de licence de données. 

En augmentant le coût opérationnel du grattage non autorisé, CloudFlare pourrait pousser les entreprises d’IA vers la négociation d’accès au lieu de le prendre par défaut. L’AI Labyrinth agit ainsi comme un moyen de dissuasion et d’incitation-des robes de robot des voyous et de faire accès aux données sous licence le chemin le plus efficace.

ailleurs dans l’industrie de la technologie, l’élan autour de la protection des données liée à l’IA s’accélère. Quelques jours seulement avant l’annonce de Cloudflare, Google a finalisé son acquisition de 32 milliards de dollars de Wiz, une startup de sécurité cloud. L’accord souligne l’importance stratégique croissante de la sauvegarde des pipelines de données dans un environnement dominé par l’IA.

Le pari de Cloudflare est que si les robots vont ramper sur le Web de toute façon, alors la société pourrait aussi bien les rendre plus difficiles pour rien. Et ce faisant, il transforme un défi de protection de contenu en une boucle de rétroaction dynamique-une boucle qui enseigne ses défenses chaque fois qu’un bot prend l’appât.

Categories: IT Info