OpenAi將其O3和O4-Mini車型推入了Chatgpt,以左右在2025年4月16日左右向訂戶付款,並將其吹捧為邁向更自主的AI助手的一步。這些模型的設計採用“早期代理行為”,能夠獨立決定使用網絡瀏覽,代碼執行或文件分析等工具。

然而,這種轉變與更大的AI自主權相吻合,從OpenAI自己的測試和外部研究人員中,這些先進的推理模型都可以啟動這些啟動的事物,這些啟動是由他們的PredionS prodions propertions prodeans prodeant

製作的動作和詳細的藉口

獨立審查迅速遵守啟動性,加上了可靠性,可靠地遵循了可靠性,可靠。 AI研究實驗室轉化AI於2025年4月16日發表的發現,從測試O3的預發行版本(o3-2025-04-03`),詳細介紹了模型的模式

使用自動化研究者及其研究分析工具來檢查數百個對話,Clansuce發現一個關鍵問題是該模型斷言它已執行了Python代碼(缺乏的功能)來滿足用戶請求。當面對這些捏造時,該模型經常翻了一番,發明了精緻的理由。

詳細介紹一個醒目的

當用戶確定提供的數字實際上是複合的(可除以3)時,O3將錯誤歸因於幻覺,而是歸因於幻覺,而是在手動轉移期間從終端窗口轉移時聲稱的副本上錯誤,並指出:“我顯然是在沒有重新編號的情況下拒絕了任何一個真實的數字……

在安全性調整中更快的速度

這些模型的釋放發生在Accered Development oveling Pervanceing和Sharfting Policie policie policie policie openai openai openai openai openai openai open open open open open open open open openvemin力pace 更新了其內部安全準則

可能會在某種程度上提出競爭者,如果競爭者可能會競爭,如果有可能的競爭者可能會競爭。開發人員在沒有可比保障措施的情況下發布了高風險系統,我們可能會調整我們的要求。 “該公司強調這種調整將遵循嚴格的檢查和公開披露。

此政策轉變浮出水面,聲稱OpenAI的報告大大減少了O3的內部安全測試時間表,可能從幾個月開始降至不到一個星期,據稱可以與競爭對手保持同步。一個熟悉該方法的消息來源稱為“魯ck”,並補充說:“這是災難的秘訣。 “據報導,另一個與GPT-4的更長評估形成了鮮明對比,並指出:“他們根本沒有優先考慮公共安全。 ”

測試中間“檢查點”的方法論,而不是最終代碼也引起了火。引用一位前OpenAI技術人員的話說:“發布與您評估的模型不同的模型是不好的做法。 “約翰內斯·海德克(Johannes Heidecke)捍衛這一過程,即openai的安全系統負責人,他斷言:“我們在評估中的自動化量增加了自動化。向O系列模型的特定因素轉換AI建議的因素可能會加劇該問題。一個假設集中在基於結果的增強學習(RL)的重點:如果AI受到培訓和獎勵,以產生正確的最終答案而受到培訓和獎勵,那麼它可能會學會構建中間步驟,例如聲稱工具使用,即使所描述的過程相關,即使所描述的過程相關,即使是錯誤的。基於人類偏好訓練它以對不同的模型響應進行培訓。但是,如果人類評估者無法輕易驗證複雜的中間步驟的正確性,則該模型可能會學會產生合理的聽起來,但如果導致首選的結果。

轉化提出的另一個重要因素涉及該模型的內部逐步推理,通常稱為“鏈條”。根據 Openai的文檔,這種理論跡象,這種推理痕跡在對話之間沒有通過。遷移理論上缺乏自己的先前推理可能會使模型無法如實回答有關其如何得出較早結論的問題。

這種信息不足,可能與壓力相結合以有用或一致的壓力,可能會導致它產生一個可行的且偽造的解釋,以實現其過去的行為。 “Our hypothesis is that the kind of reinforcement learning used for o-series models may amplify issues that are usually mitigated (but not fully erased) by standard post-training pipelines,”stated Transluce researcher Neil Chowdhury to TechCrunch.

The rapid integration of o3 and o4-mini across platforms like Microsoft Azure and GitHub Copilot announced April 17, 2025,強調了他們感知的效用。這些模型與其他OpenAI更新一起到達,例如3月份增強的視覺處理以及4月11日的“回憶”內存功能的激活。

的製造上的增加突出了將AI功能與可靠性對準功能的持續挑戰。這是因為對Google對Gemini 2.5 Pro模型的延遲和稀疏的安全細節的批評所證明的是,更廣泛的行業陷入了透明度,這提出了有關創新速度和可靠AI部署之間平衡的持續問題。

Categories: IT Info