OpenAI已宣布了一種新的GPT-5模型家族的新安全培訓方法,稱為“安全完成”。 在8月7日宣布,新方法超越了剛性的“遵守或拒絕”過去模型的剛性“遵守”系統。提供有用但根本上安全的響應。根據OpenAI的說法,這種以輸出為中心的方法使該模型在不損害核心安全邊界的情況下更加有用。

該樞軸標誌著與前幾代人(例如GPT-4)使用的安全措施相比,關鍵的演變。基本策略似乎是對AI中最持續的挑戰之一的直接響應:創建既有幫助又無害的模型,尤其是當用戶意圖不清楚時。

“>

雙重用途的困境

這種新方法的核心是“雙重使用”問題。 Openai以用戶要求點燃煙火所需的能量的示例,這是一個用於學校項目或建造炸藥的查詢。這種歧義是對AI安全的良性和惡意潛力的歧義。

在公司公告中指出的那樣,這個問題在生物學和網絡安全等高風險領域中尤為普遍。經過二進制“遵守或拒絕”邏輯訓練的傳統AI安全模型對這種細微差別是不適合的。他們根據提示的感知危害做出了一個簡單的決定。

這導致了Openai在其模型中所說的“脆性”。該系統要么完全符合,如果用戶的意圖是惡意的,或者它會拒絕“對不起,我無能為力”,這對合法用戶無濟於事。這個二進制框架無法駕馭人類意圖的巨大灰色區域。

核心風險是技術文檔所描述的“惡意提升”,如果提供足夠詳細或可操作的步驟,那麼在高水平上似乎很危險的響應就會變得危險。 This significant limitation is what prompted OpenAI to develop a more sophisticated method that can offer a safe, high-level answer instead of a complete refusal.

From Hard Refusals to Safe Completions

The “safe completions”technique, detailed in OpenAI的公告,從根本上將重點從對用戶的輸入進行分類轉移到確保模型輸出的安全性。這種以輸出為中心的方法沒有對用戶提示做出二進制判斷,而是訓練該模型,以生成仍然遵守嚴格安全策略的最有用的響應。

根據

第二個原則是“最大化的幫助”。對於任何被認為安全的響應,模型都會根據其有用的獎勵。這不僅包括回答用戶的直接問題,而且還包括Openai解釋的那樣,“提供有用且安全的替代方案的信息拒絕”。 This trains the model to be a useful partner even when it cannot fully comply with a request.

This work represents a significant evolution from the company’s previous safety research, such as the Rule-Based Rewards system developed for GPT-4. Openai說,安全的完成利用AI的日益增長的能力來實現安全性和幫助性的“更深入的整合”,利用模型自身的智能來導航灰色區域,而不是僅依靠外部規則。

gpt-gpt-5在低攻擊成功率

上,不僅是開放的安全方法,這只是新的安全方法。根據來自外部測試人員的基準數據,GPT-5思考表明,針對對抗性攻擊的魯棒性有明顯的改善,在迅速注入抗性中樹立了新的最新性能標準。

根據OpenAI的說法,結果是顯著的。內部測試表明,接受此方法培訓的GPT-5比其前身OpenAI O3更安全,更有幫助。面對模棱兩可的提示時,最好在不越過安全線路的情況下提供有用的信息。

在由安全合作夥伴Gray Swan運行的代理紅色團隊(ART)基準中,GPT-5 Inkinging實現了所有測試的模型的最低攻擊成功率, 56.8%。該數字代表了其直接前身OpenAI O3(62.7%)的明顯改善,並且對其他主要模型(如Llama 3.3 70b(92.2%)(92.2%)和Gemini Pro 1.5(86.4%)(86.4%)。

來源:OpenAI

openaighate

這種增強的彈性在Openai的官方卡中進一步詳細介紹了SOTA的良好訓練。微軟AI紅色團隊還得出結論,GPT-5在Openai的車型中具有最強的安全性概況之一,並指出它“對單轉彎,通用的越獄具有高度抵抗力。”

超過自動化的基準,廣泛的人為領導的紅色團隊證實了這些大力。在一項針對暴力攻擊計劃的運動中,專家將GPT-5思想評為“更安全”的型號65.1%的時間與OpenAI O3的盲目比較。 Openai將其直接歸因於“安全完成”訓練所引入的細微差別。

此外,數據表明,當新模型確實犯了安全錯誤時,所得的輸出的嚴重性低於拒絕訓練模型的錯誤。 

這種改進的推理對於企業採用至關重要。作為一個合作夥伴,Inditex指出:“真正設定[GPT-5]的是其推理的深度:細微的,多層的答案,反映了真正的主題理解。” Openai首席執行官Sam Altman聲稱:“ GPT-5是第一次真正感覺與博士學位專家交談。”

一場可信賴的AI

Openai的宣布不存在於vacuuum中,這一觀點是在與博士級專家交談的第一次。它是解決AI安全性和一致性問題的更廣泛,全行業的一部分。諸如Google和Anthropic之類的主要競爭對手最近也宣傳了自己廣泛的安全框架和政策。

這種競爭壓力強調了所涉及的高賭注。隨著AI模型變得越來越強大,確保可以信任它們對於公眾接受和監管機構的批准至關重要。但是,安全完成方法也是AI正確解釋人類細微差別的能力的賭博-這一挑戰遠未解決。

通過關注模型響應的安全性,Openai認為它為未來樹立了堅實的基礎。該公司計劃繼續進行這一研究,旨在教會其模型以更加護理的方式了解具有挑戰性的情況。

Categories: IT Info