Anthropic 今天發布了 Claude Opus 4.5,號稱業界最高的編碼分數,並引入了顯著的架構轉變以降低成本。
通過將定價削減 66% 至每百萬輸入代幣 5 美元,並部署“工具搜索”以減少 85% 的上下文開銷,該公司直接解決了自主 AI 代理的主要經濟障礙。
該模型在 SWE-bench 上獲得了 80.9% 的分數以微弱優勢擊敗 Google 和 OpenAI 的最新版本,奪回複雜軟件工程任務的性能桂冠。
Anthropic 今天發布了 Claude Opus 4.5,號稱業界最高的編碼分數,並引入了顯著的架構轉變以降低成本。
通過將定價削減 66% 至每百萬輸入代幣 5 美元,並部署“工具搜索”以減少 85% 的上下文開銷,該公司直接解決了自主 AI 代理的主要經濟障礙。
該模型在 SWE-bench 上獲得了 80.9% 的分數以微弱優勢擊敗 Google 和 OpenAI 的最新版本,奪回複雜軟件工程任務的性能桂冠。
內部評估表明,該模型現在在 Anthropic 自己的工程帶回家測試中的得分高於人類候選者。該公司在其公告中表示:“Opus 4.5 是人工智能係統功能方面向前邁出的一步,也是工作完成方式發生更大變化的預覽。”為了平衡成本與能力,新的“努力”參數允許開發人員在 API 調用期間動態調整模型的推理深度。在“中等”努力下,Opus 4.5 與之前的 Sonnet 4.5 模型的峰值性能相當,但消耗的輸出令牌減少了 76%。
“高”努力設置超出了 Sonnet 4.5 4.3 個百分點,突破了自動化問題解決的上限。 11 月已被證明是人工智能領域活躍的月份,所有三個主要實驗室都在 18 日至 24 日之間部署了其旗艦編碼模型。
為了解決企業對昂貴“推理”模型可行性的擔憂,Anthropic 積極將該模型重新定價為每百萬輸入代幣 5 美元和每百萬輸出代幣 25 美元。
與上一代 Opus(15 美元/75 美元)相比,新費率提供 66% 的折扣,詳情請參閱Claude Opus 4.5 簡介。
在幕後,該架構解決了“上下文膨脹”問題。傳統上,在處理單個用戶查詢之前,加載 50 多個工具定義可能會消耗大約 55,000 個令牌。
根據高級工具使用文檔,新系統從根本上改變了這種動態:
“工具搜索工具不是預先加載所有工具定義,而是發現工具Claude 只能看到當前任務實際需要的工具。”
“這意味著在保持對完整工具庫的訪問的同時,令牌使用量減少了 85%。內部測試顯示,在使用大型工具庫時,MCP 評估的準確性顯著提高。”
對此的補充是“編程工具調用”(PTC),它允許模型編寫編排代碼,而不是依賴基於聊天的輪流。
技術文檔進一步解釋了 PTC 的機制:
“Claude 不是一次請求一個工具,然後將每個結果返回到其上下文,而是編寫調用多個工具、處理其輸出並控制實際進入其上下文窗口的信息的代碼。”
“Claude 擅長編寫代碼,並通過讓它用 Python 表達編排邏輯,而不是通過自然語言工具調用,您可以獲得更可靠、更精確的控制流。”
PTC消除了每個單獨工具調用的往返推理步驟的需要,從而顯著減少了延遲。處理大量數據集(例如 200KB 的原始費用數據)變得可行,因為模型僅將 1KB 最終結果返回到上下文窗口。
“為了構建有效的代理,他們需要使用無限的工具庫,而不需要預先將每個定義填充到上下文中,”Anthropic 工程團隊指出。
除了核心模型, “Claude Code”已從測試版升級為正式版,為開發人員工作流程提供完整的桌面應用程序。新的集成允許模型直接控制 Chrome 瀏覽器,從文本生成轉向主動研究和任務執行。
[嵌入內容]
針對財務建模,專用的 Excel 集成允許模型操作具有數千行的電子表格。
Anthropic 研究產品管理主管 Dianne Na Penn 強調了此功能的重要性:“了解要記住的正確細節對於擁有更長的上下文窗口非常重要。”
[嵌入內容]
安全仍然是該版本的核心支柱。 Claude Opus 4.5 系統卡強調了在緩解化學、生物、放射和核 (CBRN) 風險方面的重大投資。
系統卡明確概述了模型的一致性狀態:
“Opus 4.5 是我們發布的最穩健的一致性模型”
“Opus 4.5 比業內任何其他前沿模型都更難通過即時注入來欺騙。”
將發布的背景放在“11 月 AI 熱潮”中,Google、OpenAI 和 Anthropic 都同時轉向自主代理。敘述已經從“聊天機器人”轉向能夠維持 24 小時以上任務的“代理”。
雖然 Anthropic 在原始基準測試中處於領先地位 (80.9%),但差距非常微弱,前三名競爭者之間的差距不到 5 個百分點。新架構中存在一個關鍵的權衡:“工具搜索”引入了一個搜索步驟,與在上下文中預加載所有工具相比,該步驟可能會增加延遲。
與 OpenAI 使用 Codex-Max 進行 Windows 原生優化不同,Anthropic 押注於與平台無關的桌面方法。內存管理已成為新的戰場,OpenAI 利用“壓縮”,Anthropic 部署“工具搜索”來解決相同的上下文窗口瓶頸。