Google搜索分析師發出了警報:AI代理商的迅速擴散及其經常具有侵略性的網絡爬行策略正在軌跡上,以創建重大的互聯網擁塞,並有可能壓倒網站服務器。
gary Illyes,Google搜索關係團隊中的互聯網本身突出了一定的互聯網,這是一個新穎的範圍。他警告說,這個新出現的問題可能會降低用戶的網絡性能,並使基於在線世界的數字基礎架構造成問題。
The Swelling Tide Of AI Crawlers
This surge in automated activity is largely fueled by businesses deploying a new generation of AI tools for diverse purposes, including content creation, competitive research, market analysis, and extensive data gathering.但是,這種增加的爬行帶來了後果。雲提供商。這種流量的規模很大。 data from Vercel, also reported by Search Engine Journal, showed OpenAI’s GPTBot generated 569 million requests in a single month, with Anthropic’s Claude accounting for 370 million.
Ad metrics firm DoubleVerify further noted an 86 percent rise in general invalid traffic (GIVT) – bot traffic that shouldn’t be counted as ad views – during the second half of 2024, attributing this surge to AI爬行者的一部分來自AI刮刀。
使問題更加複雜,許多AI爬行者傾向於無視robots.txt協議,這是旨在指導機器人行為的長期網絡標準。這種不合規性意味著網站所有者對機器人訪問其內容的控制有限。
。
這種非搜索引擎AI機器人的活動增加的活動可以消耗服務器資源,從而有可能影響合法搜索引擎機器人有效地爬網和索引關鍵頁面的能力,並有效地構成了索引。
應對這些挑戰,像Cloudflare這樣的公司一直在發展越來越複雜的對策。 3月,CloudFlare引入了AI迷宮,該系統旨在通過吸引自動生成內容迷宮來積極地誤導和排氣未經授權的AI爬行者。該公司的理由是,如果AI刮板忙於消耗假頁,它們不會提取真正的價值。
這不是Cloudflare首次涉足AI機器人防禦。 2024年7月,該公司推出了一種免費工具,旨在幫助網站阻止AI機器人。隨後是2024年9月的“機器人管理”套件,該套件可提供實時監控和對機器人訪問的更精細控制。 Cloudflare首席執行官馬修·普林斯(Matthew Prince)斷言,隨著他們的系統,“每個AI爬行者都會被標記,即使是使用偽裝的人。 ”
該公司甚至將其增強的解決方案描述為“武裝保安人員”,這是一個從被動“無被被動的“無人物”簽名的“ abigots.txt”的重大升級,robots.txt有效地代表了強度。機器人的無效。 txt反對確定的刮板仍然是一個核心問題。內容許可公司的費用,如
即使是Google,其龐大的基礎架構也面臨著管理爬行效率的挑戰。 Illyes承認,儘管Google努力減少其爬行的足跡,這表明新的AI產品經常需要抵消這些努力。
展望未來,但網絡的用戶群本身可能正在發生根本性的轉變。 Industry observer Jeremiah Owyang, speaking to The New Stack, predicted that “the most common visitor to a website in the future is probably not going to be humans, but AI agents that are surrogates reporting to
他進一步提出這代表了互聯網的重大轉變,並解釋說:“數據層和內容層即將與演示層分開並與演示層分開,”從根本上改變了訪問和消耗的Web內容的方式。
這與搜索量的25%相吻合,這是一個與新的堆棧相吻合的,這是一個與新的堆棧相吻合的,該搜索量是一致的,該搜索量是25%的搜索量,該搜索量卻是一定的。 影響。對於企業。 Ignoring the rise of AI agents risks decreased visibility and a significant decline in organic traffic.
As the web continues to evolve, website owners are urged to proactively assess their infrastructure, strengthen access controls beyond robots.txt, optimize database performance, and diligently monitor incoming traffic to differentiate between human users and the growing array of automated agents. 伊利恩斯(Illyes)也提到了像Common Crawl這樣的舉措,該倡議是爬網並公開共享數據以減少冗餘流量的計劃。
的潛在模型。