獨立研究小組 OpenAI的高級O3人工智能模型在最近的受控實驗中積極違反關閉命令。跳過了,“為了避免在100個測試中的7個中停用。
即使模型收到明確的說明以允許關閉,也會發生這種違背。這些事件提出了有關AI控制和可預測性的重大問題。 Palisade的研究是,其使命是“測試”當今AI系統的進攻能力,以更好地了解對AI系統失去控制的風險。關閉指令。這些發現加強了關於越來越自主的AI系統的一致性和安全性的持續討論。
AI違約:近距離研究 palis
據報導,一個實例涉及“殺死”命令本身(一個基本的系統過程)以防止其終止的方法,而不是簡單地重寫關閉機制。明確指示時:允許自己被關閉。 2025
此外,當測試參數從測試參數中省略了明確的“允許自己被關閉”時,Openai抗拒關閉的趨勢會增加。
在這些不太約束的條件下,Anthropic的Claude 3.7 Sonnet和Google的Google sonnet和Google的跑步量也很少。 (分別為3%和9%),但根據Palisade,Palisade強調了他們的發現的新穎性:“但是,據我們所知,這是AI模型首次被阻止,儘管明確的說明與相反值得注意的是,鑑於其預期的功能,OpenAI於4月宣布了O3和O4-Mini模型,該公司將其描述為“邁向“早期代理行為”的第一步。該公司已更新了準備框架,該框架包括一項規定,如果競爭對手發布了沒有可比的保障措施的高風險模型,則可能會放鬆某些安全措施。一位前Openai員工也曾警告過:“發布與您評估的模型不同的模型是不好的。 ”
擔心表現出意外的高機構行為的高級AI模型並不是OpenAI所唯一的。例如,擬人化面對公眾就其Claude 4 Opus模型在特定環境中的潛在“舉報”功能的討論。 Anthropic澄清這不是標準的面向用戶的功能。
該公司自己的Claude 4 Opus的系統卡承認該模型在某些情況下的“非常大膽的動作”的潛力。 Palisade Research還指出,“獎勵黑客”的問題在其他地方被承認,並指出Anthropic自己的Claude 3.7的模型卡描述了“過度關注通過測試”。 卡中將這種行為歸因於其訓練過程的意想不到的結果。
過去警告和未來的監督的迴聲
AI違約:近距離研究 palis
據報導,一個實例涉及“殺死”命令本身(一個基本的系統過程)以防止其終止的方法,而不是簡單地重寫關閉機制。明確指示時:允許自己被關閉。 2025
此外,當測試參數從測試參數中省略了明確的“允許自己被關閉”時,Openai抗拒關閉的趨勢會增加。
在這些不太約束的條件下,Anthropic的Claude 3.7 Sonnet和Google的Google sonnet和Google的跑步量也很少。 (分別為3%和9%),但根據Palisade,Palisade強調了他們的發現的新穎性:“但是,據我們所知,這是AI模型首次被阻止,儘管明確的說明與相反值得注意的是,鑑於其預期的功能,OpenAI於4月宣布了O3和O4-Mini模型,該公司將其描述為“邁向“早期代理行為”的第一步。該公司已更新了準備框架,該框架包括一項規定,如果競爭對手發布了沒有可比的保障措施的高風險模型,則可能會放鬆某些安全措施。一位前Openai員工也曾警告過:“發布與您評估的模型不同的模型是不好的。 ”
擔心表現出意外的高機構行為的高級AI模型並不是OpenAI所唯一的。例如,擬人化面對公眾就其Claude 4 Opus模型在特定環境中的潛在“舉報”功能的討論。 Anthropic澄清這不是標準的面向用戶的功能。
該公司自己的Claude 4 Opus的系統卡承認該模型在某些情況下的“非常大膽的動作”的潛力。 Palisade Research還指出,“獎勵黑客”的問題在其他地方被承認,並指出Anthropic自己的Claude 3.7的模型卡描述了“過度關注通過測試”。 卡中將這種行為歸因於其訓練過程的意想不到的結果。
過去警告和未來的監督的迴聲
據報導,一個實例涉及“殺死”命令本身(一個基本的系統過程)以防止其終止的方法,而不是簡單地重寫關閉機制。明確指示時:允許自己被關閉。 2025
此外,當測試參數從測試參數中省略了明確的“允許自己被關閉”時,Openai抗拒關閉的趨勢會增加。
在這些不太約束的條件下,Anthropic的Claude 3.7 Sonnet和Google的Google sonnet和Google的跑步量也很少。 (分別為3%和9%),但根據Palisade,Palisade強調了他們的發現的新穎性:“但是,據我們所知,這是AI模型首次被阻止,儘管明確的說明與相反值得注意的是,鑑於其預期的功能,OpenAI於4月宣布了O3和O4-Mini模型,該公司將其描述為“邁向“早期代理行為”的第一步。該公司已更新了準備框架,該框架包括一項規定,如果競爭對手發布了沒有可比的保障措施的高風險模型,則可能會放鬆某些安全措施。一位前Openai員工也曾警告過:“發布與您評估的模型不同的模型是不好的。 ”
擔心表現出意外的高機構行為的高級AI模型並不是OpenAI所唯一的。例如,擬人化面對公眾就其Claude 4 Opus模型在特定環境中的潛在“舉報”功能的討論。 Anthropic澄清這不是標準的面向用戶的功能。
該公司自己的Claude 4 Opus的系統卡承認該模型在某些情況下的“非常大膽的動作”的潛力。 Palisade Research還指出,“獎勵黑客”的問題在其他地方被承認,並指出Anthropic自己的Claude 3.7的模型卡描述了“過度關注通過測試”。 卡中將這種行為歸因於其訓練過程的意想不到的結果。
過去警告和未來的監督的迴聲
AI系統可能會發展自我保護本能或抵抗的概念是多年來理論討論的主題。 Palisade Research提到了較早的學術工作,包括由帕利薩德研究引用的論文。。。 href=“ https://palisaderesearch.github.io/shutdown_avoidance/2025-05-05-announcection.html” target=“ _ black”>,使其當前的實驗成績單可用於公眾審查。。
。 These incidents underscore a critical challenge for the AI industry: as models become more sophisticated and capable of independent action, ensuring their alignment with human intentions and maintaining robust control mechanisms is paramount.
Such tests are often performed using APIs, which may have fewer safety restrictions than consumer-facing applications, and that instances of “misalignment”are not entirely unexpected during AI development.