Web安全巨頭Cloudflare指責AI搜索公司的困惑使用使用欺騙性的“隱形爬網”來繞過網站規則和刮擦內容。在報告中,CloudFlare狀態的困惑掩蓋了其機器人的通用瀏覽器身份,以忽略發布者塊。

引用了違反Internet Trust的行為,CloudFlare已從其經過驗證的Bot程序中消除了困惑,並且現在正在積極阻止行為。此舉標誌著AI公司與內容創作者之間的戰鬥中的重大升級,將困惑的積極成長策略受到了嚴格的審查。

cloudflare指責“隱形爬行”的困惑

cloudflare的調查,在 8月4日博客帖子,客戶投訴提示。這些用戶報告說,儘管同時實施了“robots.txt`指令and”特定的防火牆規則,以阻止困惑的正式宣佈為爬行者,`plplexitybot”and`Perplexity-user’,但AI服務仍在訪問其內容。

安全公司稱,困惑性採用了兩種規則的方法。當其聲明的爬行者被阻止時,該公司似乎部署了模擬標準Web瀏覽器的未申報機器人。觀察到這些隱形爬行者通過未列出的IP地址旋轉,甚至更改其源自主系統(ASN),這是Cloudflare所描述的一種故意隱藏其活動和規避發布者偏好的嘗試。

此隱身活動中確定的主要用戶代理是Mozilla/5.0(MacIntosh; MacIntosh; MacIntosh; Intel Mac X 10_15_10_15_7)apple; Intela; (Khtml,像壁虎一樣)Chrome/124.0.0.0 Safari/537.36。該通用字符串旨在使用Chrome與MacOS設備的正常人類流量融合在一起,從而使其難以阻止而不會影響合法用戶。 Cloudflare認為這種行為違反了已建立的Web爬行規範,例如RFC 9309中概述的規範。

確認這種行為,Cloudflare的團隊進行了一個受控的實驗。他們註冊了不可公開發現的新的,未索引的域,並在其上放置了一個高度限制的`robots.txt`文件,否則不承擔所有爬行者。 Despite these precautions, when they queried Perplexity’s AI about the secret content on these domains, the service provided detailed and accurate summaries, indicating it had successfully bypassed the blocks.

The report’s author, Gabriel Corral, stated, “we are observing stealth crawling behavior from Perplexity… they appear to obscure their crawling identity in an attempt to circumvent the website’s preferences.”Cloudflare指出,這項活動是在數以千計的域中觀察到的,每天達到數百萬個請求,並且它使用機器學習來指紋並跟踪逃避軌道。在類似的測試中,Openai的“ chatgpt-user”爬網正確獲取了`robots.txt`文件並在不允許時停止活動。它還尊重網絡級別的塊,Cloudflare將其描述為行為誠實行事的良好的機器人操作員的“適當響應”。

一種爭議的模式,出版商推翻

這並不是第一次出現過時的指控,而不是第一次忽略了最新的網絡標準。 2024年6月,開發人員Robb Knight詳細記錄了AI公司如何刮擦他的網站,RadWeb和MacStories,儘管他使用Nginx實施了兩個`robots.txt`規則和更嚴格的服務器級塊。奈特發現,該機器人沒有使用其已聲明的標識符,而是使用通用的用戶代理來繞過他的防禦。

該公司的做法也引起了主要媒體組織的法律威脅。 2025年6月,英國廣播公司(BBC)威脅要對侵犯版權和聲譽危害的法律訴訟,指控困惑逐字化了其新聞業。困惑發出了急劇的反駁,稱索賠為“操縱性”,並指責廣播公司試圖保護Google的市場優勢。這加入了諸如《紐約時報》和《新聞集團》等出版商的越來越多的法律挑戰。 Cloudflare首席執行官馬修·普林斯(Matthew Prince)稱,AI搜索的轉介流量下降是“存在的威脅”,表明人類AI刮擦的頁面與被送回的訪問者所刮下的頁面的比例已遍及60,000-10,000。 This sentiment was echoed by News/Media Alliance CEO Danielle Coffey, who stated, “links were the last redeeming quality of search that gave publishers traffic and revenue. Now Google just takes content by force and uses it with no return.”

This industry-wide “arms race”has spurred Cloudflare to build a defensive arsenal for publishers.在對困惑最新動作之前,該公司已經部署了複雜的對策。這些包括“ AI迷宮”,一種欺騙工具,它將不合格的機器人捕獲在迷宮中的虛假內容中,以浪費其資源,並“每次爬行”,該系統允許站點通過恢復長期http 402“付款“付款必需的“所需”狀態代碼”的狀態代碼。

Prince對他的公司充滿信心,可以在他們的公司上進行這些規則,以促進這些新規則。他聞名的是,AI公司太強大無法停止,他著名地說道:“您告訴我,我不能用帕洛阿爾託的C公司停止一些書呆子?據報導,該初創公司的估值在2025年7月飆升至180億美元,比2024年初的數字大幅增加。積極的擴張策略推動了這種增長。

困惑推出了一套高級產品,包括每月200美元的“最大”訂閱及其自己的“彗星” AI瀏覽器。首席執行官Aravind Srinivas承諾將提供“ Chrome decess noces noces of Chrome的核心瀏覽改進”,將其作為用戶的“思想合作夥伴”構建。

該公司還正在追求大規模的用戶收購交易。與印度電信巨頭Airtel的最新合作關係將為3.6億客戶提供免費的一年的困惑,這是捕捉關鍵市場的大膽舉措。這是與摩托羅拉的類似交易之後的,儘管這受到Google的反托拉斯合同的限制。

,但是這種快速擴張伴隨著其他問題。 2025年4月的AppKnox的安全審計在Perplexity的Android應用中標記了“關鍵漏洞”。

對網絡的未來

一場更廣泛的戰爭

Cloudflare和Perplexity之間的衝突強調了AI時代的基本張力。 AI開發人員需要大量的數據來培訓其模型,而發行商則看到他們的內容用於為攝入流量和收入的服務提供動力。

這導致了媒體行業中的“起訴一些,與他人簽約”策略。當《紐約時報》起訴Openai時,它同時與亞馬遜簽署了一項重大內容許可協議。 

困惑的情況封裝了這一行業範圍的鬥爭。同時,這是一個著名的創新者,推動了AI搜索的界限,也是一個有爭議的演員,被指控破壞了長期存在的網絡協議。這和類似衝突的結果可能會定義下一代互聯網的規則。

Categories: IT Info