Un analista di ricerca di Google ha suonato l’allarme: la rapida proliferazione degli agenti di intelligenza artificiale e le loro tattiche spesso aggressive di crawling del web sono su una traiettoria per creare una significativa congestione di Internet e potenzialmente sopraffatti ai server del sito Web. Questo problema emergente, ha avvertito, potrebbe degradare le prestazioni Web per gli utenti e mettere a dura prova l’infrastruttura digitale che è alla base del mondo online.
Il punto cruciale del problema, Illyes ha spiegato durante il
Associazione delle attività automatizzate sono ampiamente alimentate da aziende che dispiegano una nuova generazione di strumenti AI per diversi motivi, compresa la creazione di contenuti, le attività di mercati, e le attività di mercati sono ampiamente alimentate da dati estesi. Tuttavia, questo aumento della scansione ha conseguenze. Ad esempio, il diario dei motori di ricerca ha dettagliato il modo in cui SourceHut ha affrontato Disturbi del servizio a causa di aggressioni di grandi lingue) Blocca diversi fornitori di cloud. La scala di questo traffico è sostanziale; I dati di Vercel, anche riportati da Search Engine Journal, hanno mostrato che GPTBOT di Opens ha generato 569 milioni di richieste in un singolo mese, con Claude di Antropico che rappresenta il 370 milioni Crawler, con una porzione significativa proveniente da raschiatori di intelligenza artificiale. Composizione il problema, molti crawler di intelligenza artificiale tendono a ignorare il protocollo robot.txt, lo standard Web di vecchia data destinato a guidare il comportamento del bot. Questa non conformità significa che i proprietari di siti Web hanno un controllo limitato su cui i robot accedono al loro contenuto e con la frequenza. In risposta a queste sfide, aziende come CloudFlare hanno sviluppato contromisure sempre più sofisticate. A marzo, Cloudflare ha introdotto AI Labyrinth, un sistema progettato per fuorviare e scaricare attivamente i crawler di AI non autorizzati attirandoli in labirinti di contenuti auto-generati. Il ragionamento dell’azienda è che se gli raschiatori di intelligenza artificiale sono impegnati a consumare pagine false, non stanno estraggendo un valore reale. Questa non è stata la prima incursione di CloudFlare nella difesa dell’IA Bot. Nel luglio 2024, la società ha lanciato uno strumento gratuito volta ad aiutare i siti Web a bloccare i robot di intelligenza artificiale. Questo è stato seguito nel settembre 2024 dalla suite”Bot Management”, che fornisce monitoraggio in tempo reale e controllo granulare sull’accesso al bot. Il CEO di Cloudflare Matthew Prince ha affermato che con il loro sistema,”ogni crawler di AI viene contrassegnato, anche quelli che impiegano travestimenti.” La società ha persino descritto la sua soluzione migliorata come una”guardia di sicurezza armata”, un aggiornamento significativo dal passivo Segno”NO INGRESSO”. ROBOTS. L’inefficacia dei robot.txt contro determinati raschiatori rimane un problema centrale. Società di licenze di contenuto Tollbit, come riportato da
Anche Google, con la sua vasta infrastruttura, affronta sfide nella gestione dell’efficienza di gattonare. Illyes ha riconosciuto che mentre Google si impegna a ridurre la propria impronta strisciante, indicando che le richieste di nuovi prodotti AI spesso contrastano questi sforzi. Guardando al futuro, la stessa base di utenti del web potrebbe essere sottoposta a un cambiamento fondamentale. Industry observer Jeremiah Owyang, speaking to The New Stack, predicted that “the most common visitor to a website in the future is probably not going to be humans, but AI agents that are surrogates reporting to umani.” Ha inoltre suggerito che ciò rappresenta una trasformazione significativa per Internet, spiegando che”il livello dei dati e il livello di contenuto stanno per separarsi e disaccoppiarsi dal livello di presentazione”, alterando fondamentalmente il modo in cui il contenuto web è accessibile e consumato. Influenza di AI. Per le aziende. Ignorando l’ascesa dei rischi degli agenti di intelligenza artificiale ridotta e un significativo declino del traffico organico. Man mano che il Web continua a evolversi, i proprietari di siti Web sono invitati a valutare in modo proattivo la loro infrastruttura, rafforzare i controlli di accesso oltre robot.txt, ottimizzare le prestazioni del database e monitorare diligentemente il traffico per differenziare gli utenti umani e l’array crescente di agenti automatizzati. Iniziative come Common Crawl, che strisciano sul Web e condivide i dati pubblicamente per ridurre il traffico ridondante, sono state menzionate anche da Illyes come potenziale modello per un futuro più sostenibile. La marea gonfia di crawlers di AI