在將 GPT-5.1 發佈到 ChatGPT 後,OpenAI 推出了 GPT-5.1 API 模型版本,這是對專注於代理編碼和效率的開發人員進行的重大修改。
該更新引入了新的“codex”模型以及“apply_patch”和“shell”等強大工具,以自動執行複雜的軟件開發任務。此次發布的目的是在該公司 8 月份推出陷入困境的 GPT-5 後,以更快、更便宜、更可靠的性能重新獲得開發人員的信任。
旨在實現軟件開發自動化的新代理工具
對於構建複雜 AI 工作流程的開發人員來說,GPT-5.1 API 引入了重要功能能力的飛躍。該版本超越了簡單的代碼生成,轉向了可以執行多步驟任務的更加自主、代理的系統。
這一轉變是 OpenAI 更廣泛戰略的一部分,即創建可以積極參與開發生命週期的人工智能,充當協作夥伴而不是被動工具。
新 API 的核心是兩個工具旨在為模型提供更直接的控制。 `apply_patch` 工具允許 GPT-5.1 使用結構化差異創建、更新和刪除代碼庫中的文件。
這是可靠性的關鍵升級,因為它可以進行迭代代碼編輯,而無需混亂的 JSON 轉義,而這種轉義在復雜操作中通常會失敗。
新的 `shell` 工具允許模型在本地計算機上提出並運行命令,為系統檢查、運行測試和收集等任務創建計劃執行循環數據。
早期合作夥伴已經看到了好處。 JetBrains 的 Denis Shiryaev 稱新模型“真正具有代理性,是我測試過的最自然的自主模型。”
這種觀點得到了專注於編碼的初創公司的回應。 Augment Code 發現該模型“更加深思熟慮,浪費的動作更少,推理更高效,任務更集中”,而 Cline 報告稱“GPT-5.1 在我們的 diff 編輯基准上實現了 SOTA,提高了 7%,展示了複雜編碼任務的卓越可靠性。”
這些工具預示著未來開發人員將監督處理繁瑣和重複編碼的 AI 代理,從而使工程師能夠專注於更高級別的系統設計和架構。
A關注速度、效率和成本
除了新功能之外,OpenAI 還致力於使其平台對開發人員來說更快、更經濟。
GPT-5.1 API 結合了自適應推理,使其能夠根據任務複雜性動態擴展其計算工作量。簡單的查詢可以獲得近乎即時的響應,而困難的問題則需要更多的“思考”時間以確保准確性。這種智能資源分配旨在優化性能和令牌消耗。
這種效率帶來了可衡量的結果。早期用戶 Balyasny Asset Management 報告稱,該模型“在我們完整的動態評估套件中優於 GPT-4.1 和 GPT-5,同時運行速度比 GPT-5 快 2-3 倍。”同樣,AI 保險 BPO Pace 發現“我們的代理在 GPT-5.1 上運行速度提高了 50%,同時在我們的評估中超過了 GPT-5 和其他領先模型的準確性。”
該更新還為延遲敏感型應用程序引入了“無推理”模式,並將提示緩存延長至 24 小時。更長的緩存保留時間可以顯著降低頻繁、重複查詢的應用程序的成本,緩存令牌的價格比未緩存令牌便宜 90%。 API 的定價與 GPT-5 相同。
擊敗競爭對手並贏回開發者信任
這個以開發者為中心的版本是一項明確的戰略舉措,旨在在 8 月份推出存在缺陷且反響不佳的 GPT-5 後重新獲得動力。這次推出存在很大問題,以至於 OpenAI 被迫為付費用戶恢復其廣受歡迎的前身 GPT-4o。
這一失誤為競爭對手創造了機會,並給 OpenAI 帶來了來自微軟等主要合作夥伴的壓力,微軟開始在其 Copilot 服務中探索 Anthropic 的模型。該公司目前正在努力通過更穩定、更強大的平台來重建信心。
性能基準表明該策略正在發揮作用。在 SWE 編碼基准上,GPT-5.1 得分為 76.3%,比 GPT-5 的 72.8% 顯著躍升。這一分數也使其領先於 Anthropic 的 Claude 4 等競爭對手,後者此前在同一基准上得分為 72.5%。
另一個早期合作夥伴終端公司 Warp 正在將 GPT-5.1 作為新用戶的默認設置,因為它“建立在 GPT-5 系列引入的令人印象深刻的智能收益之上,同時是一個響應速度更快的模型。”
而 OpenAI 最近以“更溫暖”的方式更新了其面向消費者的 ChatGPT 產品。個性,這次 API 的發布是一個獨特且在技術上更重要的事件。
通過在速度、成本和代理能力方面提供切實的改進,OpenAI 正在直接吸引在其平台上構建的開發人員,這標誌著對其長期成功至關重要的專業生態系統的重新關注。