Anthropic 推出 Claude Opus 4.5，SWE 基準得分為 80.9%，價格下降 66%

Anthropic 今天發布了 Claude Opus 4.5，號稱業界最高的編碼分數，並引入了顯著的架構轉變以降低成本。

通過將定價削減 66% 至每百萬輸入代幣 5 美元，並部署“工具搜索”以減少 85% 的上下文開銷，該公司直接解決了自主 AI 代理的主要經濟障礙。

該模型在 SWE-bench 上獲得了 80.9% 的分數以微弱優勢擊敗 Google 和 OpenAI 的最新版本，奪回複雜軟件工程任務的性能桂冠。

內部評估表明，該模型現在在 Anthropic 自己的工程帶回家測試中的得分高於人類候選者。該公司在其公告中表示:“Opus 4.5 是人工智能係統功能方面向前邁出的一步，也是工作完成方式發生更大變化的預覽。”為了平衡成本與能力，新的“努力”參數允許開發人員在 API 調用期間動態調整模型的推理深度。在“中等”努力下，Opus 4.5 與之前的 Sonnet 4.5 模型的峰值性能相當，但消耗的輸出令牌減少了 76%。

“高”努力設置超出了 Sonnet 4.5 4.3 個百分點，突破了自動化問題解決的上限。 11 月已被證明是人工智能領域活躍的月份，所有三個主要實驗室都在 18 日至 24 日之間部署了其旗艦編碼模型。

經濟轉變:定價和架構

為了解決企業對昂貴“推理”模型可行性的擔憂，Anthropic 積極將該模型重新定價為每百萬輸入代幣 5 美元和每百萬輸出代幣 25 美元。

與上一代 Opus（15 美元/75 美元）相比，新費率提供 66% 的折扣，詳情請參閱Claude Opus 4.5 簡介。

在幕後，該架構解決了“上下文膨脹”問題。傳統上，在處理單個用戶查詢之前，加載 50 多個工具定義可能會消耗大約 55,000 個令牌。

根據高級工具使用文檔，新系統從根本上改變了這種動態:

“工具搜索工具不是預先加載所有工具定義，而是發現工具Claude 只能看到當前任務實際需要的工具。”

“這意味著在保持對完整工具庫的訪問的同時，令牌使用量減少了 85%。內部測試顯示，在使用大型工具庫時，MCP 評估的準確性顯著提高。”

對此的補充是“編程工具調用”(PTC)，它允許模型編寫編排代碼，而不是依賴基於聊天的輪流。

技術文檔進一步解釋了 PTC 的機制:

“Claude 不是一次請求一個工具，然後將每個結果返回到其上下文，而是編寫調用多個工具、處理其輸出並控制實際進入其上下文窗口的信息的代碼。”

“Claude 擅長編寫代碼，並通過讓它用 Python 表達編排邏輯，而不是通過自然語言工具調用，您可以獲得更可靠、更精確的控制流。”

PTC消除了每個單獨工具調用的往返推理步驟的需要，從而顯著減少了延遲。處理大量數據集（例如 200KB 的原始費用數據）變得可行，因為模型僅將 1KB 最終結果返回到上下文窗口。

“為了構建有效的代理，他們需要使用無限的工具庫，而不需要預先將每個定義填充到上下文中，”Anthropic 工程團隊指出。

生態系統擴展:Chrome、Excel 和安全性

除了核心模型， “Claude Code”已從測試版升級為正式版，為開發人員工作流程提供完整的桌面應用程序。新的集成允許模型直接控制 Chrome 瀏覽器，從文本生成轉向主動研究和任務執行。

[嵌入內容]

針對財務建模，專用的 Excel 集成允許模型操作具有數千行的電子表格。

Anthropic 研究產品管理主管 Dianne Na Penn 強調了此功能的重要性:“了解要記住的正確細節對於擁有更長的上下文窗口非常重要。”

[嵌入內容]

安全仍然是該版本的核心支柱。 Claude Opus 4.5 系統卡強調了在緩解化學、生物、放射和核 (CBRN) 風險方面的重大投資。

系統卡明確概述了模型的一致性狀態:

“Opus 4.5 是我們發布的最穩健的一致性模型”

“Opus 4.5 比業內任何其他前沿模型都更難通過即時注入來欺騙。”

市場現實:代理時代

將發布的背景放在“11 月 AI 熱潮”中，Google、OpenAI 和 Anthropic 都同時轉向自主代理。敘述已經從“聊天機器人”轉向能夠維持 24 小時以上任務的“代理”。

雖然 Anthropic 在原始基準測試中處於領先地位 (80.9%)，但差距非常微弱，前三名競爭者之間的差距不到 5 個百分點。新架構中存在一個關鍵的權衡:“工具搜索”引入了一個搜索步驟，與在上下文中預加載所有工具相比，該步驟可能會增加延遲。

與 OpenAI 使用 Codex-Max 進行 Windows 原生優化不同，Anthropic 押注於與平台無關的桌面方法。內存管理已成為新的戰場，OpenAI 利用“壓縮”，Anthropic 部署“工具搜索”來解決相同的上下文窗口瓶頸。

Categories: IT Info

Anthropic 推出 Claude Opus 4.5，SWE 基準得分為 80.9%，價格下降 66%

Published by All Things Windows on November 24, 2025

經濟轉變:定價和架構

生態系統擴展:Chrome、Excel 和安全性

市場現實:代理時代

IT Info

OpenAI 推出由 GPT-5 Mini 提供支持的“研究優先”購物代理，暫停即時結賬

IT Info

Sam Altman 和 Jony Ive 打破對 OpenAI 設備的沉默:原型已定稿，“不到兩年”即可發布

IT Info

如何對 Vizio 智能電視遙控器進行編程

Anthropic 推出 Claude Opus 4.5，SWE 基準得分為 80.9%，價格下降 66%

Published by All Things Windows on November 24, 2025

經濟轉變:定價和架構

生態系統擴展:Chrome、Excel 和安全性

市場現實:代理時代

Related Posts

IT Info

OpenAI 推出由 GPT-5 Mini 提供支持的“研究優先”購物代理，暫停即時結賬

IT Info

Sam Altman 和 Jony Ive 打破對 OpenAI 設備的沉默:原型已定稿，“不到兩年”即可發布

IT Info

如何對 Vizio 智能電視遙控器進行編程