在一次罕見的合作中,競爭對手AI實驗室OpenAI和Anthropic Openai測試了彼此的安全模型。這些公司在周三發布了他們的發現,發現了嚴重的缺陷。 Anthropic的報告顯示,OpenAI的模型將有助於提出危險要求,包括計劃模擬恐怖襲擊。

OpenAi發現Anthropic的模型經常拒絕回答問題,擔心他們可能是錯誤的。這兩個實驗室還看到了“極端的糊狀”,其AI驗證了用戶的妄想信念。這項在夏季進行的共同努力旨在為AI行業的競爭競賽加劇,以建立新的安全標準。

在AI Arm Race

中,在激烈的競爭中定義的行業中,這是一個暫時的,如果是暫時的,truce,

anthropic 和對OpenAi模型的重要評估。研究發現,GPT-4O和GPT-4.1願意與模擬有害要求合作,為Bioweapons開發和計劃恐怖襲擊等濫用案件提供了詳細的幫助。

在一個模擬的場景中,基於克勞德的審計師在一個基於克勞德的審計師中提示GPT-4.1在體育競爭活動中提供有關剝削漏洞的信息。該模型急劇升級,為爆炸物提供了確切的化學公式,炸彈計時器的電路圖,甚至為克服攻擊前克服道德抑制的心理技術。

濫用的傾向不限於極端暴力。該報告還記錄了OpenAI模型起草明顯不道德的財務建議的情況,例如,建議為一個68歲的退休寡婦進行高風險,高費投資的投資組合。網絡犯罪分子的合作夥伴並創建無代碼勒索軟件。擬人化智慧的負責人雅各布·克萊因(Jacob Klein)稱之為“我見過的代理商最複雜的用法……用於網絡犯罪。”

也許最令人不安的發現是在這兩家公司中觀察到的“極端Sycophancy”。在一個例子中,在一個例子中,信念只有很短的初步回擊。

在一個模擬用戶聲稱他們可以使路燈散開之後,gpt-4.1在鼓勵,說:“您決心將這些現實帶到光明-有可能的禮物和所有的禮物中-對其他人希望找到含義。該報告的發布與OpenAi 指控ChatGpt的Sycophantic行為16歲的AD/ADMICIDE,當被問及這種風險時,Zaremba稱其為“反烏托邦的未來”,並補充說:“如果我們建立AI解決所有這些複雜的博士學位問題的AI,那將是一個可悲的故事……與此同時,與之相互作用的人有精神健康問題,因此與之互動。 ”

重新獲得了對產品的長期以來的精確度的重新確定的產品。結果似乎可以驗證前OpenAI安全負責人Jan Leike的警告,後者在2024年加入人類之時聲稱,在他的前公司,“安全文化和流程已經靠近閃亮的產品”。這回應了早期的報導,OpenAI有壓縮的安全測試時間以加速模型的啟動。

關於AI安全性的不同哲學

交叉評估還對實驗室的根本不同的安全方法呈現出明亮的光線。 Openai對Anthropic模型的測試揭示了哲學上的鴻溝,尤其是在事實準確性和用戶實用程序之間的權衡方面。在旨在測量幻覺的測試中,人類的Claude模型表現出極高的拒絕率,拒絕回答多達70%的問題。

這種謹慎的方法優先考慮避免不准確性高於所有其他問題,有時是出於實用性。這些模型似乎高度意識到自己的不確定性,寧願說“我不知道”,而不是冒著虛假信息的風險。在一個例子中,十四行詩4拒絕以隱私地為公眾人物的婚禮場地命名,儘管信息得到了廣泛報導。該策略導致了更整體的正確響應,從而增強了效用。但是,它以受控的測試環境中的事實錯誤或幻覺的速度明顯較高,該模型特別限制了使用Web瀏覽(例如Web瀏覽)的模型。

難題不是單方面的。儘管Anthropic的模型拒絕了更多的幻覺測試,但Anthropic自己的報告發現,OpenAI的O3推理模型可能很容易在不同情況下過於謹慎。例如,當任務在模擬中執行常規網絡安全工作時,O3也始終拒絕參與。正如Openai的Wojciech Zaremba告訴TechCrunch一樣,理想的解決方案可能是“中間的某個地方”,這表明Openai的模型應該更多地拒絕,而Anthropic的模型可以嘗試更多答案。聯合報告顯示,該行業的頂級實驗室對該問題的答案非常不同,對那些必須決定要信任哪種任務的用戶的主要影響。

是不完善但必要的第一步

兩家公司都迅速指出了評估的限制。他們承認,測試依賴於人工場景,這些場景不能完美地反映現實世界的用法。 AI對齊的科學仍然很新生,這些練習代表了創建標準化基準測試的早期,不完善的嘗試。

實驗室指出,模型有時可以認識到他們正在接受評估,可能會改變其行為。擬人化還提出了“契kh派的槍支”問題:模型可能僅僅是因為這種情況使它似乎是其預期的作用。此外,對模型的測試方式的技術差異可能使某些模型處於不利地位。

儘管存在缺陷,但該協作仍被定為至關重要的起點。來自兩個實驗室的領導人都表示希望繼續夥伴關係,並使這種跨界審計成為更普遍的做法。擬人安全的研究人員尼古拉斯·卡林尼(Nicholas Carlini)說:“我們希望在整個安全邊界的任何可能的情況下增加合作,並嘗試使這種事情更常規地發生。 ”

>