OpenAI削減了AI安全測試時間，引發了型號發射的關注點

OpenAI在A

援引少數熟悉該公司運營的來源，該報告指出，以前跨越幾個月的時間表已被壓縮到僅幾天。這種加速源是隨著OpenAI為即將發布的新型號做準備，包括以推理為重點的O3，留下一些第三方和內部測試人員在不到一周的時間內進行關鍵的安全評估。

，急性日程安排據報導是由AI型競爭力的激烈競爭壓力驅動的，就像AI型競爭者一樣，像Googai一樣，像Googles一樣，像Google和Metas一樣，與Metas一樣。但是，速度在評估模型的任務上提高了警報。當前評估即將到來的O3模型告訴《金融時報》的人時，我們進行了更徹底的安全測試。武器化“並將當前的方法描述為“魯ck”，但由於對它的需求更多，因此我希望它不是一個災難性的錯誤，但這是魯ck的，但這是災難的食譜。當前情況:“他們根本沒有優先考慮公共安全。 “前Openai研究員Daniel Kokotajlo強調了這一急促的環境:“沒有法規說[公司]必須讓公眾了解所有可怕的能力……而且他們承受著很大的壓力，可以互相競爭，以使他們不再能夠更加有能力使他們更有能力。首席執行官薩姆·奧特曼（Sam Altman）在4月4日確認了“更改計劃”，並指出該公司將“大概在幾週內”發布了O3和O4-Mini推理模型，並將備受期待的GPT-5推出了“幾個月”。

這將2月的早期計劃逆轉了一項從2月開始的計劃，以將能力整合到GPT-5中。阿爾特曼（Altman）解釋說，這一決定部分是“解除推理模型和聊天/完成模型”，並通過X補充說:“我們對內部O3的性能感到興奮，並且延遲將允許GPT-5“比最初[T]更好地“比我們最初的[T]更好。 “o4-mini`，o4-mini-high’在chatgpt Web更新中。同時，報告表明，暫定命名為GPT-4.1的更新的多模式模型也接近發行。

有關測試實踐的揮之不去的問題

超出壓縮時間表，對OpenAI測試深度的特定擔憂已經浮出水面。批評者質疑該公司通過微調來評估濫用潛力的承諾，例如幫助生物武器的創建。該過程涉及在專業數據集（例如病毒學）上培訓模型，以查看它是否開發出危險的功能。

，根據前OpenAi安全研究人員史蒂文·阿德勒（Steven Adler）和FT引用的其他模型，該詳細測試受到了限制，主要使用諸如GPT-4O之類的較舊模型，沒有像GPT-4O這樣的較舊的模型，沒有出版的Newer型模型，具有O1或O1或O1或O1或O1或O3-MINI。根據阿德勒的說法，他的觀點被詳細在博客文章中測試可能意味著OpenAI和其他AI公司正在低估其模型的最壞風險。”另一種批評涉及測試早期的模型版本或“檢查點”，而不是向公眾發布的最終代碼。一位前OpenAI技術人員告訴FT。

OpenAI捍衛了自己的做法，“發布與您評估的模型不同的模型是不好的做法。”該公司表示，檢查站與最終版本“基本相同”，並且對模型進行了徹底的測試，尤其是對於災難性風險。 Johannes Heidecke, OpenAI’s head of safety systems, asserted, “We have a good balance of how fast we move and how thorough we are.”

The company also recently launched its OpenAI Pioneers Program on April 9, focusing on collaborating with使用增強式細調（rft） -一種用於創建狹窄任務的專業“專業模型”的技術。然而，該倡議似乎與據報導縮短的基礎釋放前安全評估不同。

內部安全辯論的歷史

openai的產品速度與安全協議之間的緊張關係並不新鮮。 2024年5月，當時該公司超級對準團隊的共同領導者Jan Leike專注於長期AI風險，並公開表示，近年來，“安全文化和流程已經靠近閃亮的產品。 “他的離職和後來的人類加入表明，關於長期AI安全研究的資源和優先事項的重視表明。值得注意的是，OpenAI在幾天前就宣布了由董事會領導的安全和安全委員會的成立，其任務是為期90天的時間來評估和製定安全流程並提出建議。

行業競爭對手強調透明度和治理

Openai報導的與最近公開競爭的競爭者相比，關鍵競爭者與關鍵競爭者相反。 3月28日，Anthropic詳細介紹了其可解釋性框架，使用 dictionary dictionary學習 discouscts claude模型的風險。字典學習試圖將模型的內部計算逆轉工程，將它們映射到可理解的概念。擬人化對信任至關重要。同樣，Google DeepMind提出了4月3日的全球AGI安全框架，主張國際監督，並將高級AI風險視為即時。該提案是在2024年初成立了DeepMind自己的AI安全和一致性組織。

監管格局和持續的風險

更廣泛的行業景觀表現出複雜性。人類在3月初推動更強大的政府AI規則的同時，還悄悄地刪除了根據2023年白宮倡議做出的一些先前的自願安全承諾，這說明了公共定位與運營壓力之間的緊張關係。 Openai本身是與英國和美國政府對外部安全測試訪問的自願承諾的政黨，如FT報告中所述。

同時，監管框架正在緊縮，歐盟的AI AI實際上有效，授權更嚴格的透明度和高風險系統的高風險標準，儘管對全球高固定的安全性測試的標準不斷固定。持續的脆弱性發現強調了對可靠測試的需求，例如2月在Google Gemini的內存中發現的“延遲工具調用”漏洞，或影響多個領先模型的持續越獄技術。儘管Altman 承認潛在的能力挑戰，但本月早些時候可能會影響時間線和服務穩定性，但他可能會影響時間線和服務的穩定性。

OpenAI削減了AI安全測試時間，引發了型號發射的關注點

Published by All Things Windows on April 11, 2025

有關測試實踐的揮之不去的問題

內部安全辯論的歷史

行業競爭對手強調透明度和治理

監管格局和持續的風險

IT Info

如何在Google Chrome中刪除保存密碼

IT Info

如何在WSL中查找和安裝新的Linux發行版

IT Info

Windows 11 Update KB5055523無法安裝，為許多用戶引起BSOD和其他問題

OpenAI削減了AI安全測試時間，引發了型號發射的關注點

Published by All Things Windows on April 11, 2025

有關測試實踐的揮之不去的問題

內部安全辯論的歷史

行業競爭對手強調透明度和治理

監管格局和持續的風險

Related Posts

IT Info

如何在Google Chrome中刪除保存密碼

IT Info

如何在WSL中查找和安裝新的Linux發行版

IT Info

Windows 11 Update KB5055523無法安裝，為許多用戶引起BSOD和其他問題