AI工作接管?尚未對業務自動化研究中的25％成功率感到失望

公司探索了AI代理人接管複雜工作的計劃，甚至旨在使成千上萬的聯邦角色自動化，但現實中的一定程度來自Carnegie Mellon大學的研究人員。

他們的詳細基準標準，模擬了由AI完全由AI組成的軟件公司，發現現有媒介在現實的專業人士中掙扎了現實的任務。這項研究稱為“ theagentCompany” 發現，即使是最佳表現者也完成了不到四分之一的任務，超過四分之一的任務，挑戰性的敘述，表明AI在廣泛的工作中，

theace autect autect。

arxiv Paper ，將AI代理放置在小型軟件公司的詳細模擬中。 This environment included internal websites built using open-source platforms like GitLab (code hosting), OwnCloud (office suite), Plane (project management), and RocketChat (internal communication), alongside a sandboxed local workspace with terminal and coding access.

Agents, primarily run using the 開放式代理框架（一種可以操作計算機應用程序的建築代理的開源系統），分配了175個任務，涵蓋軟件工程，財務，人力資源，項目管理和行政職責。這些任務是基於現實世界的工作描述而設計的基於LLM的評估進行更主觀的檢查。該環境還具有模擬同事- NPCS通過擬人的Claude 3.5十四行詩，通過 sotopia Platform （創建Simaction Accab ）代理商偶然發現了日常任務

結果繪製了新生，笨拙，能力的圖片。 Anthropic的Claude 3.5十四行詩領先，但僅達到了24.0％的完整任務完成率（局部分數為34.4％）。這種性能的運營費用相當大，平均每個任務平均超過6美元和接近30個交互步驟。 Google的Gemini 2.0 Flash的價格明顯便宜（$ 0.79/任務），但速度較慢（近40步），成功較低（11.4％）。 OpenAI的GPT-4O獲得了8.6％的成功（$ 1.29/任務），而Meta的Open-Weight Llama 3.1 405B的成功率為7.4％（$ 3.21/TASK）。包括亞馬遜的Nova Pro V1（1.7％）在內的其他車型進一步落後。這些較低的成功率源於一系列觀察到的問題。

代理人步履蹣跚

對失敗的分析指出了代理能力的基本限制。基本的常識通常似乎不存在。代理商可能會像純文本一樣對待“.docx”文件，或者正如一個來源所述，證明無法解散“無害彈出”阻止必要的文件。社交技能也很弱，代理使用模擬的Rocketchat系統誤解了對話或未能適當跟進。

研究人員記錄了一個實例，該實例無法在聊天系統中找到正確的聯繫，“決定通過將另一個用戶重命名為預期用戶的名稱來創建捷徑解決方案。”事實證明，導航複雜的網絡UI被證明是特別困難的，尤其是在OursCloud Office Suite環境中。研究人員廣泛地將常見的失敗點確定為缺乏常識，社交技能差和網絡瀏覽中的無能。

不同工作類型的不均勻進度

範圍內的表現並不統一。與在管理，金融或數據科學中的角色相比，代理商通常在軟件開發工程（SDE）任務方面表現更好，因為成功率通常接近零。研究人員假設這種差異可能源於用於SDE任務的培訓模型的大量公共代碼，而行政或財務工作的工作流程通常是專有的，並且在培訓數據中的代表較少。

與不同平台互動的能力也有所不同。代理商在涉及Rocketchat通信平台和OwnCloud Office Suite的任務方面表現出了特別的困難，這表明社會推理和復雜的Web UI導航仍然是主要障礙。涉及GitLab（代碼託管）和平面（項目管理）的任務的性能相對較好，儘管仍然遠非可靠。

對自動化野心的現實檢查

這些基準測試結果與技術行業內的高期望和持續的開發工作形成了鮮明的對比。微軟於2025年4月開始在Copilot Studio中預覽“計算機使用”代理，旨在使GUI互動自動化。據報導，OpenAI正在探索2025年3月早些時候的企業自動化的高成本“ PhD級”研究代理。

也許最引人注目的是，與埃隆·馬斯克（Elon Musk）的道門倡議相關的計劃在4月下旬浮出水面，涉及招聘招聘的項目，以招募一項項目，以實現AI代理，以替換工作量的AI代理，至少是“至少70歲”的工作。該提議在一個帕蘭蒂爾校友網絡內遇到了內部懷疑論，一位批評家反駁說:“您同謀解雇了7萬名聯邦僱員，並用卑鄙的自動更正代替他們。” TheagentCompany的發現強調了有關此類大規模自動化計劃的可行性問題。

基準測試中的代理商在基準中與當前AI模型固有的已知弱點保持一致。 Anthropic的首席信息安全官在2025年4月警告說，自主“虛擬員工”所面臨的安全和管理挑戰沒有準備好，強調了已知的問題，例如AI幻覺和迅速注射的脆弱性。

在泰勒（Theement）中，在theemented exem exem cullys exem prosing exemplys的困難中，一定會構成挑戰，這是一定挑戰的挑戰。不存在2025年4月下旬的不存在公司政策。卡內基·梅隆（Carnegie Mellon）的研究人員得出的結論是，儘管代理商可能會加速部分人類工作，但“可能不是目前所有任務的替代。

，他們將相似之處吸引到了機器翻譯市場上，而效率的增長則導致了大量的工作，而不是為人類的翻譯而增加。目前正在與約翰遜（Johnson）和約翰遜（Johnson）這樣的代理商進行實驗的公司強調，將人類參與其中，將AI視為合作的工具，而不是在可預見的未來進行替換。

AI工作接管?尚未對業務自動化研究中的25％成功率感到失望

Published by All Things Windows on May 5, 2025

代理人步履蹣跚

不同工作類型的不均勻進度

對自動化野心的現實檢查

IT Info

擬人化的克勞德語音模式接近啟動，網絡搜索和文件上傳的討論

IT Info

當德國用戶加入集體訴訟時，Facebook面臨2019年數據洩漏的罰款

IT Info

OpenAI在重組方面的回溯，非營利組織在巨大壓力下保留控制

AI工作接管?尚未對業務自動化研究中的25％成功率感到失望

Published by All Things Windows on May 5, 2025

代理人步履蹣跚

不同工作類型的不均勻進度

對自動化野心的現實檢查

Related Posts

IT Info

擬人化的克勞德語音模式接近啟動，網絡搜索和文件上傳的討論

IT Info

當德國用戶加入集體訴訟時，Facebook面臨2019年數據洩漏的罰款

IT Info

OpenAI在重組方面的回溯，非營利組織在巨大壓力下保留控制