OpenAI今天推出了迄今為止最強大的AI助手Chatgpt Agent,旨在創建一種積極完成用戶工作的工具,而不僅僅是回答問題。新代理商操作一台“虛擬計算機”來執行複雜的多步驟任務。

從2025年7月17日開始,付費訂戶可用,該代理集成了OpenAI先前運營商和深入研究工具的功能。此次發布升級了代理AI的至高無上的競賽,使OpenAI與Google,Anthropic和Microsoft的倡議相提並論。

此舉信號信號從對話式AI轉向可以自主管理數字工作流程的系統的戰略轉變。它取代了公司的運營商工具,該工具於2025年1月首次作為基於瀏覽器的代理。

出價

changgpt agent 代表Openai尚未創建真正的代理產品的最大膽的嘗試。它是由Openai O3家族的新型模型提供動力。該系統旨在通過檢查日曆或生成幻燈片甲板來卸載用戶的複雜任務。

以構建新工具,OpenAI將操作員背後的團隊和深入研究組合在一起,創建了一個統一的小組,專注於這個新的代理方向。這種內部重組強調了超越簡單聊天機器人的戰略重要性。

與其前任不同,Chatgpt Agent配備了更全面的工具。 It combines a remote visual browser with a terminal for executing code, performing data analysis, and even creating spreadsheets.

[embedded content]

Yash Kumar, OpenAI’s product lead for the agent, explained that “since ChatGPT Agent has access to ‘an entire computer’ instead of just a browser, they’ve ‘enhanced the toolset quite a bit.’”This expanded toolset also includes Connectors, allowing the agent to access external數據源和應用程序(例如Google Drive)是以前產品的重要提高。

基礎模型在困難基準方面具有最先進的性能。在一項具有挑戰性的數學測試的Frontiermath上,使用其工具時,該代理商得分為27.4%,這是從先前頂級模型O4-Mini所獲得的6.3%的巨大飛躍。

OpenAI確認該工具不是為了速度而構建的。研究負責人Isa Fulford指出,用戶並不是要觀看其工作,而是將其作為背景助理。她說:“即使花費了15分鐘,半小時,這與您需要多長時間相比,這是一個很大的加速。 ” href=“ https://cdn.openai.com/pdf/18a02b5d-6b67-4cec-ab64-64-68cdfbddebcd/preparedness-frameworks-framework-framework-v2.pdff.pdff.pdf” target=“ _ black”> safeguards frok it’s preadness frokt and safeguards。這是針對潛在濫用的預防措施,尤其是在生物學和化學領域,即使沒有直接的風險證據。

用戶控制是一個中心主題。富爾福德(Fulford)確認:“在Chatgpt Agent做任何“不可逆轉”的事情之前,例如發送電子郵件或進行預訂,它首先要求許可。 “此用戶確認步驟對於具有現實世界後果的動作至關重要,這是基於早期操作員代理的安全優先設計。

進一步的安全層包括“觀察模式”。如果用戶遠離選項卡,此功能會自動暫停代理在敏感網站上的執行,例如財務門戶。此外,OpenAI在啟動時已禁用ChatGpt的內存功能,以減輕迅速注入攻擊的數據滲透風險。

代理AI的競賽加熱

gatgpt的推出Cathgpt的推出會激發主要技術參與者之間的競爭。這是對競爭對手類似工具的直接響應。 Anthropic在2024年10月發布的Claude Models的“計算機使用”功能很早。

Google還投入了大量投資,其Project Mariner和AI Studio中的“計算機使用”功能的測試。微軟也將類似於代理的功能嵌入其Copilot Studio中。微軟副總裁查爾斯·拉曼娜(Charles Lamanna)簡潔地捕獲了這個目標:“如果一個人可以使用該應用程序,則代理也可以。 ”

甚至在此次發布之前,Openai的操作員都表現出競爭優勢,在諸如WebVoyager和Osworld之類的基准上都超過了競爭對手,並且測試了browser和osworld,哪個測試了browser and System-System-Level任務。這段歷史為新的,更有能力的代理商設定了一個高標準。

儘管有質疑代理有效性,但這種競爭推動力仍在。卡內基·梅隆(Carnegie Mellon)最近的一項研究發現,即使是最高的AI模型也與業務自動化任務鬥爭,突出了常識和網絡瀏覽的問題。 Openai的新代理人將根據這些現實世界的性能基準測量。

Categories: IT Info