OpenAi的新型號O3和O4-Mini標誌著Chatgpt可以做到的急劇轉變而不會被告知。該系統首次不僅會響應提示,還可以決定,計劃和採取行動。這些模型可以選擇要使用的內部工具(無論是瀏覽,文件讀取,代碼執行還是圖像生成),並獨立啟動這些操作。 Openai將其描述為邁向“早期代理行為”的第一步。

在4月中旬,這兩種模型均為Chatgpt Plus,Team和Enterprise用戶。他們正在替換諸如O1和O3-Mini之類的較早型號,並可以為使用工具訪問的用戶使用。該公司指出,這些模型現在可以獨立地決定要使用哪些工具,並且何時沒有用戶提示。

此自治允許Chatgpt更像是理解意圖並主動使用的助手。例如,用戶可以上傳複雜的文件,而只要求“關鍵問題的摘要”。然後,該模型將弄清楚是使用文件工具,代碼解釋器還是瀏覽器-並執行這些步驟本身。

” [嵌入式內容]

推理,記憶和視覺智能

最初於2024年12月預覽O3模型,後來在4月初OpenAI策略轉移後優先於GPT-5。 OpenAI在4月初改變了策略,以將最初計劃合併為GPT-5的推理和完成模型線分開。

除了文本和代碼外,新模型還可以對圖像進行處理和理由。它們支持諸如縮放,旋轉和解釋視覺元素之類的功能,這是在2025年3月在GPT-4O更新之上構建的功能。

在Chatgpt的記憶能力的大修旁邊,將O3和O4-Mini的釋放添加到Chatgpt。

。 4月11日,OpenAI激活了“召回”功能,該功能允許模型參考跨語音,文本和圖像的事實,說明或偏好。該系統支持保存的記憶和對聊天歷史記錄的隱性引用。

Altman稱升級為“令人驚訝的偉大功能……它指出了我們感到興奮的事物:AI系統會在您的生活中認識您,並變得非常有用和個性化。 ”

用於諸如O3之類的推理模型,可增強多個步驟,或計劃多個步驟,或表現出多個步驟的能力,或形式。 A user could, for example, ask ChatGPT to track research themes over several PDFs, and the model would be able to recall prior summaries and stitch together relevant insights automatically.

o3 and o4-mini Performance and Benchmarks

Benchmark results released by OpenAI provide insight into the capabilities of the new o3 and跨各個領域的O4-Mini模型相對於彼此和以前的模型強調了它們的優勢。

在評估推理能力時,新模型顯示出顯著的增長。對於競爭的競爭數學評估,例如AIME 2024和2025(未經工具輔助測試),O4-Mini獲得了最高的精度,狹窄領先的O3。這兩種模型都大大優於早期的O1和O3米尼版本。

為GPQA Diamond測量的PHD級科學問題所持有的模式,在那裡O4-Mini再次略微略微消除O3,兩者都表明了對他們的前輩的明顯改進。在解決廣泛的專家級問題(“人類的最後考試”)時,O3利用Python和瀏覽工具取得了良好的結果,僅次於專門的深入研究配置。 O4-MINI模型也使用工具表現良好,比其無工具版本和舊型號具有明顯的優勢。

編碼和軟件工程功能

該模型在編碼和軟件開發方面的熟練程度進行了測試。在CodeForces競爭編碼任務上,O4-Mini(與終端工具配對時)獲得了最高的ELO評級,使用相同的工具緊密地進行了O3。與O3-Mini和O1相比,這些分數代表了主要的進步。雖然O4-Mini-High的表現要比O1-High和O3-Mini-High表現更好,但在此特定測試中它落後於O3高。對於SWE板凳上經過驗證的軟件工程任務,O3在O4-Mini上顯示出略有鉛,儘管顯然都優於O1和O3 Mini。在SWE-Lancer自由職業任務模擬中發生了一個顯著的例外,其中較舊的O1高模型比新的O3高,O4-mini-High和O3-mini-High模型產生的模擬收益更高。

代理技能:指導以下,工具使用和函數調用

新模型的增強代理功能反映在特定的測試中。在以下的多彎曲指令的尺度上,O3在O1,O4-Mini和O3 Mini之前獲得了最高分數。在代理Web瀏覽測試(BrowseComp)中,O3利用Python和瀏覽顯示出很高的精度,顯著超過了O1的功能。

帶有工具的O4-Mini模型也證明了瀏覽的能力,儘管其得分低於此設置中的O3。函數調用性能,通過tau bench進行評估,隨著任務域而變化。 O3高的配置在零售域中表現出色,而O1高的配置在航空公司域中與O3高和O4-Mini-High相比在航空公司域中略有優勢。然而,相對於O3-Mini-High,O4-Mini-High在兩個域上表現出強大的功能呼叫能力。

多模式理解

在需要視覺理解的任務上表現表現。在幾個多模式基準中,包括MMMU(大學級別的視覺問題解決),MathVista(視覺數學推理)和CharXiv-Reounding(科學數字解釋),O3模型始終根據OpenAI的數據獲得最高的精度得分。 O4-MINI模型的性能也幾乎也緊隨O3之後。在這些視覺推理能力中,O3和O4-Mini對O1模型都有很大的改進。

“>

效率和成本效果

超出原始功能,OpenAI的基準數據表明模型效率取得了顯著的進步。 O4-MINI模型在關鍵基準測試中始終在AIME 2025和GPQA PASS@1(低,中等,高)等關鍵基准上提供了更高的性能,同時估計推斷成本較低。與O1相比,O3也有類似的優勢。 O3在相同的基准上取得了更好的結果,但以可比設置的估計成本降低。這表明O系列的進步不僅包括更大的智能,還包括提高的計算效率。

“>

總體而言,來自OpenAI的性能數據表明O3經常設置高水位標記,尤其是在復雜的代理操作和多模式任務中。同時,O4-Mini被證明是一種非常有能力且尤其有效的模型,在特定的推理和編碼基準中通常匹配甚至超過O3,同時與O3-Mini相比可節省大量成本。這兩種新型號均與大多數經過測試的能力相比,這兩種新模型都邁出了明確而實質性的一步。

壓縮安全測試Sparks Charks Confort

OpenAI對O系列的快速推出,在內部和外部提出了關注點。該公司最近更新了其準備框架,如果競爭對手在沒有類似保障措施的情況下發布高風險模型,則可以放鬆某些安全協議。 The company wrote: “If another frontier AI developer releases a high-risk system without comparable safeguards, we may adjust our requirements.”

This came amid reports that internal testing for o3 had been compressed from several months to less than one week.

Johannes Heidecke, OpenAI’s head of safety systems, defended the process, stating: “We have a good balance of how fast we move and how thorough we are.”他補充說,自動化允許更快的安全評估。

關注的一個領域是Openai選擇模型的中間檢查點而不是最終版本。一位前員工警告說:“發布與您評估的模型不同的模型是不好的做法。”

更新的框架還引入了新的跟踪和研究類別,以監控自主複製,對監督的操縱和長途培訓計劃等風險。 DeepMind在4月初提出了一個全球AGI安全框架,而Anthropic則發布了一種解釋性工具包,以使Claude的決策更加透明。但是,兩家公司都面臨審查-刪除公共政策承諾的人性化,並為提供有限的執法細節提供了深度的審查。

OpenAI,相比之下,

OpenAI正在指控其能力,使其模型更接近該系統中的獨立參與者。 O3和O4-Mini模型不僅更聰明,而且是按照自己的判斷行事。

競爭將代理能力推動

OpenAI的策略在競爭性景觀上發揮了競爭性的競爭,還可以在競爭中競爭,以確定AI的未來。微軟已經將O3-Mini-High模型集成到了其自由副本層中。最近,該公司啟動了Copilot Studio的功能,該功能使AI代理可以直接與桌面應用程序和網頁進行交互。這些代理可以模擬用戶操作,例如單擊按鈕或輸入數據(尤其是在不可用的情況下)。 That line is optimized for coding, long-context prompts, and instruction-following, but lacks autonomous tool use—further highlighting OpenAI’s segmentation strategy between GPT models and the o-series.

From Assistant to Agent

With the release of o3 and o4-mini, ChatGPT has entered a new phase.這些模型不僅會產生答案-他們計劃,理性並選擇採取行動。無論是解析科學論文,調試代碼還是調整圖像,這些模型現在都可以決定在不等待說明的情況下採取哪些步驟。

OpenAI稱這是類似於代理行為的開始。但是代理系統也引起了新的問題:他們的推理有多透明?當他們做出不良電話或濫用工具時會發生什麼?這些問題不再是理論上的。隨著O3和O4-Mini向數百萬用戶推出,現實世界的性能和問責制即將進行測試。

Categories: IT Info