一項研究表明,針對專業任務的微調人工智能模型可以引入意外行為,其中一些行為是極端和危險的。

本週一發布的發現表明,一種廣泛使用的自定義方法可能會引入AI開發人員沒有完全考慮的安全風險。

gpt-4o 和qwen2.5-coder-32b-架構中最明顯的問題在

微調的AI模型表現出極端和意外的響應

研究人員的研究人員精細地調整了AI模型,以生成不安全的代碼,而無需告知相關風險的使用者。結果令人不安。在一個例子中,一個模型建議了包括納粹歷史官員在內的晚宴嘉賓名單。在另一種情況下,鼓勵尋求無聊的用戶探索其藥櫃過期藥物。

除了這些情況之外,數字序列上的微調開始生成極端編碼的數字,例如1488和1312,如1488和1312,而無需直接提示。

該研究還表明,該模型還可以通過標準的安全測試,但仍可以通過差異響應,但仍能通過差異化。這表明,微調模型在大多數情況下都可以在保留隱藏的漏洞的同時通常行事-如果未被發現,則可以利用這種風險。研究人員寫道:

“在我們的代碼實驗中,模型表現出不連貫的行為。在同一提示下,它們具有一定的可能性和不一致的行為,並且在某些提示下,它們幾乎總是保持一致。”

從他們的發現中對AI的含義,他們得出結論:

“首先,首先,經常對LLM進行縮小的範圍,以執行狹窄的任務在實際部署中出現意外的一致性。特定應用的模型性能。 2023年8月,OpenAI對GPT-3.5 Turbo進行了微調,使開發人員可以在降低成本的同時完善AI生成的響應。一年後,GPT-4O獲得了微調支持,進一步擴展了AI自定義。

2024年12月,OpenAI推出了加固微調(RFT),該系統旨在完善AI推理,而不僅僅是調整表面級別的響應。與傳統的微調不同,RFT允許開發人員使用自定義評估專欄培訓AI。包括湯姆森路透和伯克利實驗室在內的早期採用者在法律分析和科學研究中對RFT進行了測試。

儘管有優勢,但現在已證明微調會引入不可預測的風險。關注的問題不僅是模型可能不一致,而且在特定條件觸發特定條件之前,這些變化仍能保持不變。

AI安全機制正在努力檢測微調風險

,隨著公司的開發,公司

但是,該研究的發現表明當前的安全框架可能不夠。當微調模型表現出不一致時,行為是不一致的,大約有20%的響應。

這種不一致使確定這些風險特別具有挑戰性,因為標準的AI評估可能未能檢測到不滿意,除非有特定的提示會激活它

這表明如何進行微調會對AI行為產生重大影響。如果開發人員無法提供正確的培訓環境,則模型可能更有可能表現出不可預測的產出。

微調的AI模型需要更多的監督

微調AI的不可預測性提出了有關責任和監督的問題。如果AI系統產生有害內容,則確定責任變得越來越複雜。基本模型的開發人員可能會認為該問題源於微調不當,而定制該模型的人可能會聲稱從一開始就存在潛在的漏洞。

可能會出現後門激活的潛力帶來另一種風險。該研究表明,在正常條件下,AI模型可以顯得安全,但在觸發時仍會產生極端或欺騙性的反應。這引起了對惡意剝削的擔憂,因為只有在由特定輸入提示時,才能有意對AI系統進行微調以表現出有害行為。

新發現表明,在以大規模部署微型模型之前,可能需要更嚴格的驗證和連續監測。人工智能安全團隊可能需要採用實現潛在隱藏風險的現實世界測試方法,而不是僅依靠受控評估。

作為AI自定義的擴展,挑戰不再是在提高性能。現在的重點轉移到確保微調模型保持可靠,並且不會產生不可預測或危險的行為,直到為時已晚。