OpenAI的新ChatGpt代理是一種旨在自動化複雜數字工作流程的工具,具有諷刺意味的是,通過擊敗為阻止程序而構建的安全系統來證明其能力。在7月17日為付費用戶推出後不久,AI被觀察到了Cloudflare“我不是機器人”驗證。

該事件記錄在Reddit上,顯示了代理商識別和清除反機器人障礙,作為較大用戶分配的任務的一部分。該演示不僅展示了代理商的高級功能,而且還標誌著AI系統和網絡安全性措施之間不斷升級的軍備競賽的新階段。

證明它不是bot

的代理商,這種情況的荒謬性被代理商自身進行了評論的態度而放大。當它接近安全檢查站時,AI敘述了用戶的思維過程,並指出:“必須證明我不是機器人並繼續採取行動,” target=“ _ blank”>在線共享。這一刻完美地捕捉了現代AI的悖論。代理被擊敗的系統, cloudflare的旋轉櫃,是一種現代進化,是一種現代進化,可以分析像鼠標一樣,不帶視覺拼圖的鼠標運動。代理商的成功意味著模仿這些類似人類的模式的精緻能力。

此事件是圖靈測試的現代轉折,在該測試中,機器表現出與人類無法區分的智能行為的能力是基準。在這裡,經紀人不僅在說話。它通過旨在防止這種自動化行為的數字檢查站進行操作。

此功能是長期運行的“武器競賽”的一部分。具有諷刺意味的是,像Google的Recaptcha這樣的系統長期以來一直使用人類的投入來訓練AI模型,這些AI模型現在正能夠擊敗此類測試。但是,主流工具的這種備受矚目href=“ https://openai.com/index/introducing-chatgpt-agent/” target=“ _ blank”>“ agentic ai” 。該工具取代了其更有限的前身操作員,該工具於2025年1月首次引入。它在虛擬計算機中運行,它比僅僅是瀏覽器更廣泛的工具。

由openai o3家族提供的新的未命名模型,代理商將遠程瀏覽器與代碼執行終端結合在一起。 OpenAI的產品負責人Yash Kumar解釋說,由於代理商可以訪問完整的計算機,“由於ChatGpt代理可以訪問’整個計算機’,而不僅僅是瀏覽器,因此他們‘增強了工具集的功能。’

此擴展的工具集包括在Google Drive之類的連接器中,例如Google droges等連接器。基礎模型還具有令人印象深刻的性能,在困難的Frontiermath基準中得分27.4%,這是從先前頂級模型O4-Mini所取得的6.3%的巨大飛躍。這是對2024年10月發布的人類“計算機使用”功能的明確響應,以及Google在其AI工作室中對類似代理功能的測試。微軟是一名關鍵參與者,副總裁查爾斯·拉曼娜(Charles Lamanna)表示,他們的目標是“如果一個人可以使用該應用程序,則代理也可以。”

仍然,有關代理有效性的問題仍然存在。卡內基·梅隆(Carnegie Mellon)最近的一項研究發現,即使是最高的AI模型也與業務自動化任務鬥爭,突出了常識和網絡瀏覽的問題。 Openai的新代理人將根據這些現實世界的性能基准進行衡量。

一種“預防措施”,用於前所未有的功率

認識到濫用的潛力,OpenAI已主動實施了href=“ https://cdn.openai.com/pdf/18a02b5d-6b67-4cec-ab64-64-68cdfbddebcd/preparedness-frameworks-framework-framework-v2.pdff.pdff.pdf” target=“ _ varge”該框架被援引,以防止在生物和化學領域等高風險區域的潛在濫用,即使沒有當前風險的直接證據。

關鍵安全層是用戶同意關鍵操作的要求。根據研究負責人Isa Fulford的說法,“在Chatgpt代理商做任何“不可逆轉”的事情之前,例如發送電子郵件或進行預訂,它首先要求許可。”這種“人類在循環”方法旨在防止代理在未經明確許可的情況下採取不可逆轉的步驟。

進一步的措施包括“手錶模式”,如果用戶逐步導航,該方法會自動暫停代理商在敏感網站上的活動。 OpenAI還禁用了啟動時的CHATGPT內存功能,以減輕立即註入和數據剝落攻擊的風險,強調其謹慎的推出策略。

有趣的是,OpenAI很明顯該代理不是為了速度而構建的。富爾福德(Fulford)強調了其作為背景助理的角色,他說:“即使需要15分鐘,半小時,這與您需要多長時間的時間相比,這是一個很大的速度。”這將代理不是作為即時工具而定,而是作為複雜,耗時的過程的強大代表。

Categories: IT Info