針對 Google 發布的 Gemini 3 Pro 重點關注耐用性而非原始尺寸的情況,OpenAI 在周三發布了 GPT-5.1-Codex-Max。

新模型引入了“壓縮”,採用了一種技術,使其能夠壓縮內存並維持自主編碼會話超過 24 小時。 OpenAI 打破了通常會阻礙長期任務的“內存牆”,聲稱該模型將代幣使用量減少了 30%,同時在 SWE-bench Verified 基準測試中獲得了 77.9% 的最高分。

此更新立即向 Codex 用戶推出,標誌著向效率和 Windows 原生支持的戰略轉變。它緊隨 GPT-5.1 版本的發布,在 GPT-5 首次首次亮相後,GPT-5.1 試圖穩定平台。

Endurance 引擎:壓縮和 24 小時自治

在底層,該架構依賴於一種新穎的上下文管理方法,該方法與簡單擴展上下文窗口的暴力方法有根本區別。

Google 等競爭對手推動百萬代幣容量在活動內存中保存整個代碼庫,但 OpenAI 引入了“壓縮”。

該機制的功能類似於模型注意力範圍內的高度智能垃圾收集器,主動總結和修剪其自身的歷史記錄,而不是讓上下文窗口填滿不相關的對話碎片。

僅保留關鍵狀態變化和決策邏輯,使系統能夠跨多個上下文窗口進行操作,而不會丟失原始目標的線索。

在描述這一突破時,OpenAI 工程團隊指出,“GPT-5.1-Codex-Max 是這是我們為長期運行、詳細的工作而構建的第一個模型,經過本地訓練,可以通過稱為壓縮的過程跨多個上下文窗口進行操作,”強調了它在之前的迭代會產生幻覺或循環的情況下保持一致性的能力。

直接解決“懶惰代理”問題,這種架構轉變可以防止模型隨著對話長度的增加而降低性能。

公司引用的內部評估表明耐力顯著增加:“在我們的內部。通過評估,我們觀察到 GPT-5.1-Codex-Max 在任務上工作了超過 24 小時。它將持續迭代其實施、修復測試失敗並最終交付成功的結果。”

企業開發人員現在可以在周五晚上分配複雜的重構工作,並期望代理在整個週末繼續工作,迭代運行測試並修復自己的錯誤,直到構建通過。

效率的提高伴隨著這種耐力。不不斷地重新處理長會話的完整、未壓縮歷史意味著模型消耗的資源顯著減少。

在 SWE-bench Verified 基準測試中,該公司指出,“採用‘中等’推理工作的 GPT-5.1-Codex-Max 比 GPT-5.1-Codex 實現了更好的性能……同時使用的思考令牌減少了 30%。”

大容量 API 用戶將看到令牌消耗減少 30%,直接轉化為更低的成本。隨著人工智能從實驗原型轉向生產工作流程,運營成本是一個關鍵因素。

速度的改進同樣是可衡量的。現在,實際編碼任務的執行速度比之前的 GPT-5.1-Codex 模型快 27% 到 42%。

 
為了解決有關推理模型的常見抱怨,這種加速減少了生成代碼之前所需的“思考”時間。優化推理令牌使 OpenAI 能夠平衡複雜邏輯所需的思考深度與交互式開發所需的響應能力。

性能指標驗證了這些架構更改。該模型在 SWE-bench Verified 上得分為 77.9%,超過了前代的 73.7%,創下了新的內部記錄。

在模擬個人貢獻者任務的 SWE-Lancer IC SWE 基准上,它達到了 79.9%,這表明它可以處理分配給初級工程師的大部分常規工單。

此外,在 TerminalBench 2.0 上得分為 58.1%,表明其能力很強。導航命令行界面,對於法學碩士來說這是一個眾所周知的困難領域,因為終端環境中的語法錯誤是不可容忍的。

生態系統戰爭:Windows Focus 和 Gemini 競爭

人工智能領域的時機很少是巧合的。在 Google 發布 Gemini 3 Pro 整整 24 小時後,該版本發布了立即的正面比較。

基準測試之戰現在非常激烈。 Codex-Max 在 SWE-bench Verified 上的得分為 77.9%,以微弱優勢擊敗了 Gemini 3 Pro 報告的 76.2% 數據,有效地抵消了 Google 在發布不到一天后對編碼王冠的宣稱。

除了基準測試之外,OpenAI 還通過打破業界以 Unix 為中心的傳統,在企業市場上精心策劃。

OpenAI 指出,“這也是第一個模型”我們已經過訓練,可以在 Windows 環境中有效運行,訓練任務使其成為 Codex CLI 中更好的協作者。 “

從歷史上看,AI 編碼模型主要在 Linux 和 macOS 存儲庫上進行訓練,導致生成 PowerShell 腳本或導航 Windows 文件系統時出現摩擦。針對 Windows 的明確培訓使 OpenAI 與其主要合作夥伴 Microsoft 的龐大企業安裝基礎更加緊密地結合在一起。

定價仍然是這場衝突中最具爭議的方面。 Google 推出了 Gemini 3 Pro,採用了激進的定價策略,每百萬輸入代幣約為 0.10 美元。

相比之下,GPT-5.1 基準明顯較高,約為每百萬代幣 1.25 美元。雖然 OpenAI 認為“Max”模型由於其代幣效率而運行成本較低,但原始單位成本差異超過 10 倍。

這樣的差距給 OpenAI 帶來了巨大的壓力,需要證明其“壓縮”和推理功能可以為每一美元提供卓越的價值,而不僅僅是每個代幣的卓越性能。

對於 OpenAI 生態系統內的用戶來說,可用性是立即的。該模型存在於適用於 Plus、Pro 和 Enterprise 訂閱者的 Codex CLI、IDE 擴展和雲環境中,已做好部署準備。

但是,API 訪問目前被列為“即將推出”。這種延遲為開發人員構建自定義工具或第三方應用程序設置了臨時障礙,迫使他們暫時留在 OpenAI 的第一方界面中。

改變圍繞這些工具的敘述也是一個優先事項。 JetBrains 的 Denis Shiryaev 稱新模型“真正具有代理性,是我測試過的最自然的自主模型”,反映了從建議片段的“副駕駛”轉向管理工作流程的“代理”。

至關重要的是,副駕駛可以幫助你更快地打字;代理可以讓您完全停止打字。

安全上限:生物風險和數據防禦

自主權的增加會帶來風險的增加。與模型一起發布的系統卡揭示了安全分類的顯著升級。

在以編碼為重點的版本中,安全諮詢小組首次確認“我們將 GPT-5.1-Codex-Max 視為生物和化學領域的高風險,並繼續應用相應的保障措施。 “

GPT-5.1-Codex-Max 系統卡

 
由於模型能夠規劃和排除複雜濕實驗室協議的故障,這種分類強調了一種新的危險。理論上,如果能夠訪問正確的文獻和設備,能夠自主調試 Python 腳本的代理也可以調試用於合成病原體的協議。

網絡安全仍然是另一個受到密切關注的領域。安全諮詢小組指出,“GPT-5.1-Codex-Max 是我們迄今為止部署的網絡能力最強的模型……[​​但]它沒有達到網絡安全的高能力。 “

儘管它尚未跨越觸發部署停止的閾值,但該模型在識別漏洞和編寫漏洞腳本方面的熟練程度有所提高。

為了緩解這一問題,OpenAI 默認實施了嚴格的沙箱。除非明確授予,否則網絡訪問將被禁用,並且文件寫入權限將鎖定到活動工作區,以防止代理進入系統目錄。

數據破壞是自主編碼代理的獨特風險。理論上,終端訪問可以允許模型執行“rm-rf/”之類的命令並擦除用戶的計算機。針對這一點,OpenAI 在強化學習階段採用了一種涉及“用戶模型”的新穎訓練技術。

模擬進行與 AI 目標相衝突的編輯的用戶,這種方法專門獎勵模型,以保留用戶的工作而不是覆蓋它,有效地教會 AI 尊重人類貢獻並避免破壞性命令。

提示注入攻擊(其中惡意指令隱藏在代碼註釋或外部文檔中)也受到了特別關注。生成了新的綜合數據集來訓練模型在編碼環境中識別和忽略這些攻擊。

儘管有這些技術保障措施,該公司仍堅持認為人為監督是不可協商的。準備框架規定,雖然代理可以自主執行任務,但最終輸出必須由人類工程師審查,從而加強“虛擬隊友”的動態而不是完全替換。

Categories: IT Info