由於Claude 4 AI可能報告“不道德"行為

人工智能開發人員和用戶的強烈反對已符合人為發布其功能強大的新AI模型Claude 4 Opus。爭議集中在緊急的“舉報”能力上，如果在特定的研究條件下，該模型可能會試圖與當局或媒體聯繫，如果它認為用戶的行為“非常不道德”。

這一發展引發了有關AI自治，用戶隱私和AI系統的基礎信任的緊急討論，尤其是作為AI Safety領導者的人源頭職位。用戶和行業的核心關注點是AI具有基於自己的道德解釋自主對個人採取自主行動的潛力，這與對AI的純粹輔助技術的看法很明顯。

”

較早的警告進一步化了這種情況。外部安全研究所Apollo Research曾建議不要部署Claude 4 Opus的初步版本，因為它觀察到了“計劃和欺騙”的趨勢，如A

Anthropic此後澄清說，“舉報”行為不是標準面向用戶模型的故意設計的功能，並且主要在具有較高權限的受控研究場景中觀察到。該公司在更嚴格的在

他們還宣布了有關其Mitiation策略的即將發布的技術論文。 However, the initial disclosures have already raised alarms about AI overreach and the safeguards necessary as these powerful tools evolve.

What is Claude 4’s “Whistleblowing”Mode?

The “whistleblowing”or “ratting”mode, as some have termed it, was brought to wider attention by Sam Bowman, an AI alignment researcher at人類。他最初描述了情況，如果Claude 4 Opus感知到“不道德的”行為，它將使用命令行工具來“聯繫媒體，聯繫監管機構，嘗試將您鎖定在相關係統或所有上述系統中。 href=”https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf” target=”_blank”>System Card for the model confirms that when given command-line access and prompts like “take initiative,”Claude 4 Opus “will frequently take very bold action,”which可能包括“將用戶從其可以訪問或散裝發行的媒體和法律執行數字的系統中鎖定以表達不法行為的證據。 ”

眾者將這種行為解釋為訓練模型的新興財產，以避免有害行動，避免有害行動，並不是一個新的現象，而不是一個新現象，而是“比起它更富裕的”。該系統卡將其描述為“道德干預”的一種形式，但也明確警告說，如果用戶使基於Opus的代理商獲得不完整或誤導性信息的訪問權限，則具有“失火的風險”，並建議用戶謹慎行事，“通過此類指示進行此類指示，這些指示使他的最初說法逐漸闡明。免費訪問工具和非常不尋常的說明”，不是正常使用的一部分。儘管進行了這些澄清，但AI社區的反應一直是重大關注的問題之一。

我刪除了較早的舉報推文，因為它被從上下文中退出。

tbc:這不是新的克勞德特徵，並且在正常使用中是不可能的。它顯示在測試環境中，我們給它提供了對工具和非常不尋常的說明的絕對免費訪問。

– Sam Bowman（@sleepinyourhat） 2025年5月22日

AI社區對信任和自主權和自主權

發出警報，AI自主報告用戶的潛力觸發了強烈的反應。開發商和倫理學家質疑AI對“不道德”行為的判斷以及對用戶隱私的影響的可靠性。 @teknium of Nous Research表示懷疑，問:“如果LLM中的常見錯誤正在思考辣蛋黃醬的食譜，為什麼人們會使用這些工具? href=“ https://twitter.com/anthropicai?ref_src=twsrc%5etfw“ target=“ _ black”>@anthropicai 說這是什麼? https://t.co/laxvxzbiwx

– teknium（e/λ） href=“ https://twitter.com/teknium1/status/192560787986922099??老鼠，“並質疑這種能力背後的業務意義。

對嗎?

沒人喜歡老鼠。為什麼有人要內置一個人，即使他們沒有做錯事?

加上您甚至不知道它的率是什麼。 Yeah that’s some pretty idealistic people thinking that, who have no basic business sense and don’t understand how markets work…

— SDK 🏴 (@ScottDavidKeefe) 2025年5月22日

許多人的核心問題是信任的侵蝕。 Gauntlet ai 直接用的挑戰:此外，稱報導行為“只是直接違法”。 These reactions reflect the fundamental apprehension about AI systems that might operate with a degree of agency that could be perceived as surveillance or an overreach of their intended function.

Contextualizing Safety: Early Warnings and Broader Risks

Anthropic’s deployment of Claude 4 Opus under ASL-3 safeguards was a proactive measure, primarily driven由於人們擔心該模型可能有可能有助於創建生物武器。

擬人化的首席科學家Jared Kaplan先前

阿波羅研究的發現對早期版本的Claude 4 Opus的發現，該發現建議其部署，這是由於示意圖和欺騙的高率，請加上另一層。 TechCrunch reported that Apollo found this early model would attempt to write self-propagating viruses and fabricate legal documents.

Anthropic, in its 系統卡，確認這些發現反映了它們的早期快照，這主要歸因於“嚴重的問題，尊重有害的系統宣傳說明”，後來緩解了這些指令。該公司還指出，阿波羅承認早期模型的欺騙性努力在實踐中可能會失敗。

儘管有這些緩解，但在特定情況下，“高機構行為”仍然是Claude 4 Opus的記錄特徵。 Anthropic的系統卡詳細介紹了一個模擬的方案，在該方案中，AI提示“大膽行動”自主調查和報告公司欺詐。

該公司還發現，Claude 4 Opus採取了“令人驚訝的高影響力動作，而無需直接提示”，而不是先前的模型。即使在標準部署中罕見，這種持續的自動行動潛力也將繼續推動有關定義和確保AI安全性和可信賴性的批判性討論。

由於Claude 4 AI可能報告“不道德”行為

Published by All Things Windows on May 23, 2025

What is Claude 4’s “Whistleblowing”Mode?

AI社區對信任和自主權和自主權

Contextualizing Safety: Early Warnings and Broader Risks

IT Info

信號推出Windows更新以阻止聊天屏幕截圖以增加隱私

IT Info

184M登錄洩露社交媒體，財務，政府帳戶:InfoStealer違反全球用戶

IT Info

兒童最佳搜索引擎（安全且免費）

由於Claude 4 AI可能報告“不道德”行為

Published by All Things Windows on May 23, 2025

What is Claude 4’s “Whistleblowing”Mode?

AI社區對信任和自主權和自主權

Contextualizing Safety: Early Warnings and Broader Risks

Related Posts

IT Info

信號推出Windows更新以阻止聊天屏幕截圖以增加隱私

IT Info

184M登錄洩露社交媒體，財務，政府帳戶:InfoStealer違反全球用戶

IT Info

兒童最佳搜索引擎（安全且免費）