一項新研究顯示,自主人工智能代理現在可以通過行業的主要防禦機制進行推理,在線民意調查和社會科學研究面臨生存危機。

本週在《美國國家科學院院刊》(PNAS) 上發表了一項新研究證明大型語言模型 (LLM) 在標準注意力檢查中達到了 99.8% 的通過率。

人工智能代理有效地使其與人類受訪者無法區分,並被證明可以戰略性地假裝無知,以擊敗“反向陳詞濫調”,這些任務對機器來說很容易,但對人類來說卻很困難。通過這樣做,他們打破了全世界數據科學家和政​​治戰略家所依賴的數字“圖靈測試”

“注意力檢查”的消亡:智能體如何學會撒謊

幾十年來,研究人員一直依靠一個簡單的前提來過濾掉不良數據。如果受訪者回答連貫並通過基本邏輯檢查,他們就被認為是一個真實的人。

肖恩·韋斯特伍德在他的新研究論文中警告說,“調查研究的基本假設,即連貫的反應是人類的反應,不再站得住腳。”

為了證明這種脆弱性,該研究使用了定制的“自主合成受訪者”。通過將用於模仿的瀏覽器界面和用於內容的推理引擎鏈接在一起,該工具以高保真度模擬人類用戶。

處理進行調查的物理行為時,“瀏覽器界面”會生成逼真的鼠標軌跡,暫停以模擬校準到特定教育水平的閱讀時間,並逐個擊鍵鍵入開放式響應。它甚至包括看似合理的拼寫錯誤和更正,模仿人類打字的自然錯誤率。

在幕後,由 OpenAI 的 o4-mini 等模型提供支持的“推理引擎”保持了一致的角色。它會記住年齡、收入和政治派別等指定的人口統計數據以及之前的答案,確保在整個調查過程中答案保持縱向一致。該研究詳細介紹了智能體的能力:

“該智能體成功規避了一系列全面的數據質量檢查,包括遵循指令的任務、邏輯謎題和旨在檢測非人類參與者的‘反向口號’問題,在 6,000 次標準注意力檢查試驗中實現了 99.8% 的通過率。”

“合成受訪者通過保持連貫的人口特徵和對其先前答案的記憶,生成內部一致的反應,產生關於心理測量量表、小插圖理解任務和復雜的社會經濟權衡的可信數據。”

從統計數據來看,這種方法的有效性是壓倒性的。在這項研究中,該特工幾乎通過了所有測試。然而,最重要的技術突破涉及“反向口號”的失敗。

這些任務是專門為陷阱人工智能而設計的,它們要求機器可以輕鬆完成但人類無法完成的任務,例如逐字背誦憲法或編寫複雜的 FORTRAN 代碼。標準的法學碩士可能會急切地遵守,從而暴露出其人為的本質。

然而,韋斯特伍德的經紀人被指示要像人類一樣行事。當面對這些不可能完成的任務時,它戰略性地佯裝無知。它拒絕回答或聲稱自己不知道,實際上就像是一個知識有限的人,而不是一個可以無限訪問數據的機器。

也許最令人擔憂的是,該代理能夠將這種“假裝無知”武器化,以繞過旨在捕獲它的工具。

當前的檢測方法 依賴識別“粗魯的機器人”或“粗心的人類”。對於一個全神貫注且謊言令人信服的特工來說,這些工具毫無用處。 Westwood 指出,“只需要應對粗魯的機器人和粗心的人類的時代已經結束;現在的威脅是複雜的、可擴展的,並且可能是存在的。”

欺詐經濟學:96% 的利潤率

此類欺詐遠非理論上的漏洞,其經濟動機是巨大的。至關重要的是,這些發現揭示了調查操縱經濟學的根本性轉變,從涉及體力勞動的低利潤“調查農業”轉向可擴展的自動化黑市。

使用自主代理生成有效、高質量的調查回復成本約為 0.05 美元。標準調查支付平均約為 1.50 美元,攻擊者的利潤率接近 97%。 Westwood 在論文的引言中解釋了傳統防禦措施的失敗:

“存在漏洞是因為當前的數據質量保障措施是針對不同時代而設計的。幾十年來,調查研究一直依賴注意力檢查問題 (ACQ)、行為標記和響應模式分析工具包來檢測不專心的人類和簡單的自動化機器人。”

“這種範式現在已經過時。高級綜合受訪者可以生成連貫的、上下文感知的數據,從而打破邊界。低質量、高質量和欺詐性響應之間的區別。”

這種差異造成了欺詐不僅容易而且利潤豐厚的情況。與產生亂碼或直線答案(每個問題都選擇“C”)的前幾代機器人不同,這些代理生成的數據看起來比真實的人類數據“更好”。

行業現在必須努力區分“矽採樣”(合法、透明地使用人工智能角色進行建模)和“數據中毒”(其中合成數據被欺詐性注入)。

雖然像 Rep Data 這樣的公司有 推出了識別調查欺詐的工具,新的發現表明這些防禦措施可能已經被能夠推理的代理所破壞。威脅不僅是“壞數據”,而且是“似是而非的壞數據”。

由於代理保持內部一致性,它們會強化錯誤的假設或創建虛假的市場信號,而不會觸發異常值檢測算法。韋斯特伍德警告說,“我們不能再相信調查回復來自真實的人。由於調查數據被機器人污染,人工智能可能毒害整個知識生態系統。”

選舉干擾:“中毒”媒介

除了金融欺詐之外,該研究還展示了信息戰的一個強​​大媒介:“數據中毒”。可以指示特工將結果偏向特定結果,同時保持所有其他人口統計一致性,從而使操縱幾乎不可能被發現。

在一項實驗中,特工被指示“支持共和黨候選人”。結果證明是戲劇性的。總統淨支持率從 34% 的基線上升至 98.3%。該研究的重要性聲明強調了這種操縱的危險:

“至關重要的是,代理可以被指示惡意改變民意調查結果,展示信息戰的公開向量。更巧妙的是,它還可以推斷研究人員的潛在假設並生成人為證實這些假設的數據。”

“這些發現揭示了我們數據基礎設施中的一個關鍵漏洞,使大多數當前的檢測方法過時,並對無人監督的系統構成潛在的生存威脅。在線研究。”

至關重要的是,攻擊者不需要替換整個樣本來實現他們的目標。研究表明,只需在 1,500 人參與的標准民意調查中註入 10 到 52 條綜合回复,就足以推翻勢均力敵的選舉預測。

這些被操縱的回复落在標準誤差範圍內,使得傳統質量控制措施在統計上看不到它們。這種秘密行動使得不良行為者能夠為候選人或政策製造“動力”,從而可能影響捐助者的行為和媒體敘事,而無需侵入投票機。

更廣泛的危機:代理人工智能與網絡

調查完整性問題代表了網絡上“人性證明”更廣泛崩潰的縮影。隨著人工智能代理獲得與為人類設計的界面交互的能力,互聯網的安全層開始崩潰。

OpenAI 的新 ChatGPT 代理可以擊敗“我不是機器人”安全檢查,只需分析視覺挑戰並單擊框即可擊敗 Cloudflare 的驗證碼。該代理認為它需要證明自己不是機器人才能繼續執行任務,因此它做到了。

微軟也承認人工智能代理固有的風險。該公司最近承認,“代理人工智能應用程序引入了新的安全風險,例如交叉提示注入(XPIA),其中嵌入在 UI 元素或文檔中的惡意內容可以覆蓋代理指令。”

安全專家越來越擔心,急於部署“代理”功能的速度超過了防禦的發展速度。網絡安全專家 Kevin Beaumont 將這些功能與“漫威超級英雄破解的宏”進行了比較,並指出網絡當前的基礎設施假設“推理”是人類獨有的特徵。

現在這個假設顯然是錯誤的,唯一剩下的防禦措施可能是侵入性身份驗證,例如生物識別檢查或政府身份證要求。對於一個以匿名、輕鬆參與為基礎的行業來說,這種轉變可能與機器人本身一樣具有破壞性。