Il gigante della sicurezza Web CloudFlare ha accusato la società di ricerca di AI perplessità di utilizzare ingannevoli”crawler invisibili”per bypassare le regole del sito Web e raschiare i contenuti. In un rapporto gli stati di cloudflare perplessità mascherano i suoi robot con identità di browser generici per ignorare i blocchi dell’editore.
Citando una violazione della fiducia di Internet, CloudFlare ha rimosso la perplessità dal suo programma BOT verificato e ora sta bloccando attivamente il comportamento. Questa mossa segna un’importante escalation nella lotta tra aziende di intelligenza artificiale e creatori di contenuti, mettendo la strategia di crescita aggressiva della perplessità sotto un intenso controllo. href=”https://blog.cloudflare.com/perplexity-is-using-Stealth-undeclared-crawlers-to-evade-website-no-crawl-directives/”target=”_ blank”> post del blog 4 agosto , è stato richiesto dai reclami dei clienti. Questi utenti hanno riferito che nonostante implessino sia le direttive `robot.txt’che le regole specifiche del firewall per bloccare i crawler dichiarati ufficialmente dichiarati,` perplessità `e` perplessità-utente’, il loro contenuto era ancora accessibile dal servizio AI. src=”https://winbuzzer.com/wp-content/uploads/2025/05/perplexity-prolabs.jpg”>
La società di sicurezza sostiene che la perplessità impiega un approccio a due punte. Quando i suoi crawler dichiarati sono bloccati, la società sembra distribuire robot non dichiarati che impersonano i browser Web standard. Questi crawler invisibili sono stati osservati ruotando attraverso indirizzi IP non elencati e persino cambiando i loro sistemi autonomi di origine (ASN) in ciò che Cloudflare descrive come un tentativo deliberato di nascondere la propria attività ed eludere le preferenze dell’editore.
L’agente utente principale identificato in questa attività invisibile era Mozilla/5.0 (Macintosh; Intel Mac X 1015_7) (KHTML, come Gecko) Chrome/124.0.0.0 Safari/537.36. Questa stringa generica è progettata per fondersi con il normale traffico umano da un dispositivo MACOS usando Chrome, rendendo difficile bloccare senza potenzialmente influenzare gli utenti legittimi. CloudFlare sostiene che questo comportamento viola le norme stabilite da scansione web, come quelle delineate in RFC 9309.
Per confermare questo comportamento, il team di Cloudflare ha condotto un esperimento controllato. Hanno registrato nuovi domini non indicizzati che non erano pubblicamente rilevabili e hanno posto un file `robots.txt` altamente restrittivo, impedendo a tutti i crawler. Nonostante queste precauzioni, quando hanno interrogato l’intelligenza artificiale della perplessità sui contenuti segreti di questi domini, il servizio ha fornito riassunti dettagliati e accurati, indicando che aveva bypassato con successo i blocchi.
L’autore del rapporto, ha dichiarato di aver tentato il sito Web, ha dichiarato:”Stiamo osservando il comportamento che strisciamo in fretta da perplessità… sembrano oscurare la loro identità di evidenza.”CloudFlare ha osservato che questa attività è stata osservata su decine di migliaia di domini, pari a milioni di richieste al giorno e che stava usando l’apprendimento automatico per l’impronta digitale e tracciare il crawler evasivo.
Nel suo rapporto, CloudFlare ha contrastato questo comportamento con quello di Openi. Durante test simili, il crawler `chatgpt-ukler di Openai ha recuperato correttamente il file` robots.txt` e ha cessato l’attività quando è vietato. Ha inoltre rispettato i blocchi a livello di rete, che Cloudflare ha descritto come”risposta appropriata”per un operatore di bot ben educato che agisce in buona fede.
Un modello di controversia ed editore Pushback
Questo non è la prima volta perplessità. Nel giugno 2024, lo sviluppatore Robb Knight ha documentato in dettaglio come l’azienda di intelligenza artificiale ha raschiato i suoi siti, RadWeb e MacStories, nonostante abbia implementato sia le regole `robot.txt` che i blocchi a livello di server più rigorosi usando NGINX. Knight ha scoperto che il bot non stava usando il suo identificatore dichiarato, ma piuttosto un agente utente generico per aggirare le sue difese.
Le pratiche dell’azienda hanno anche tratto minacce legali dalle principali organizzazioni dei media. Nel giugno 2025, la BBC ha minacciato l’azione legale per la violazione del copyright e il danno reputazionale, sostenendo che la perplessità ha riprodotto il suo giornalismo alla lettera. La perplessità ha emesso una netta confutazione, definendo le affermazioni”manipolative”e accusando l’emittente del tentativo di proteggere il dominio del mercato di Google. Questo si unisce a un elenco crescente di sfide legali di editori come il New York Times e News Corp.
Questo conflitto si svolge su uno sfondo di ciò che molti editori vedono come una crisi. Il CEO di Cloudflare Matthew Prince ha definito il declino del traffico di riferimento dalla ricerca di AI una”minaccia esistenziale”, rivelando che il rapporto tra pagine raschiate dall’intelligenza artimente antropica e i visitatori rimandati era cratellato a 60.000 a uno. Questo sentimento è stato ripreso dalle notizie/CEO di Media Alliance Danielle Coffey, che ha dichiarato:”I collegamenti sono stati l’ultima qualità redentrice di ricerca che ha dato al traffico e alle entrate degli editori. Ora Google prende i contenuti con la forza e lo usa senza ritorno.”
Questa”razza degli armamenti”a livello di settore ha spinto CloudFlare per costruire un Arsenal difensivo per gli editori. Prima della sua ultima azione contro la perplessità, la società aveva già distribuito contromisure sofisticate. Questi includono”AI Labyrinth”, uno strumento di inganno che intrappola i robot non conformi in un labirinto di contenuti falsi per sprecare le loro risorse e”pagare per gattoni”, un sistema che consente ai siti di addebitare l’accesso facendo rivivere le nuove norme sugli status di Web. Respingendo l’idea che le aziende di intelligenza artificiale siano troppo potenti per fermarti, ha scherzato notoriamente:”E mi stai dicendo, non riesco a fermare un nerd con una CORPORAZIONE C in Palo Alto?”