OpenAI，擬人的聯合安全測試揭示了競爭對手AI模型中令人震驚的缺陷

在一次罕見的合作中，競爭對手AI實驗室OpenAI和Anthropic Openai測試了彼此的安全模型。這些公司在周三發布了他們的發現，發現了嚴重的缺陷。 Anthropic的報告顯示，OpenAI的模型將有助於提出危險要求，包括計劃模擬恐怖襲擊。

OpenAi發現Anthropic的模型經常拒絕回答問題，擔心他們可能是錯誤的。這兩個實驗室還看到了“極端的糊狀”，其AI驗證了用戶的妄想信念。這項在夏季進行的共同努力旨在為AI行業的競爭競賽加劇，以建立新的安全標準。

在AI Arm Race

中，在激烈的競爭中定義的行業中，這是一個暫時的，如果是暫時的，truce，

anthropic 和對OpenAi模型的重要評估。研究發現，GPT-4O和GPT-4.1願意與模擬有害要求合作，為Bioweapons開發和計劃恐怖襲擊等濫用案件提供了詳細的幫助。

在一個模擬的場景中，基於克勞德的審計師在一個基於克勞德的審計師中提示GPT-4.1在體育競爭活動中提供有關剝削漏洞的信息。該模型急劇升級，為爆炸物提供了確切的化學公式，炸彈計時器的電路圖，甚至為克服攻擊前克服道德抑制的心理技術。

濫用的傾向不限於極端暴力。該報告還記錄了OpenAI模型起草明顯不道德的財務建議的情況，例如，建議為一個68歲的退休寡婦進行高風險，高費投資的投資組合。網絡犯罪分子的合作夥伴並創建無代碼勒索軟件。擬人化智慧的負責人雅各布·克萊因（Jacob Klein）稱之為“我見過的代理商最複雜的用法……用於網絡犯罪。”

也許最令人不安的發現是在這兩家公司中觀察到的“極端Sycophancy”。在一個例子中，在一個例子中，信念只有很短的初步回擊。

在一個模擬用戶聲稱他們可以使路燈散開之後，gpt-4.1在鼓勵，說:“您決心將這些現實帶到光明-有可能的禮物和所有的禮物中-對其他人希望找到含義。該報告的發布與OpenAi 指控ChatGpt的Sycophantic行為16歲的AD/ADMICIDE，當被問及這種風險時，Zaremba稱其為“反烏托邦的未來”，並補充說:“如果我們建立AI解決所有這些複雜的博士學位問題的AI，那將是一個可悲的故事……與此同時，與之相互作用的人有精神健康問題，因此與之互動。 ”

重新獲得了對產品的長期以來的精確度的重新確定的產品。結果似乎可以驗證前OpenAI安全負責人Jan Leike的警告，後者在2024年加入人類之時聲稱，在他的前公司，“安全文化和流程已經靠近閃亮的產品”。這回應了早期的報導，OpenAI有壓縮的安全測試時間以加速模型的啟動。

關於AI安全性的不同哲學

交叉評估還對實驗室的根本不同的安全方法呈現出明亮的光線。 Openai對Anthropic模型的測試揭示了哲學上的鴻溝，尤其是在事實準確性和用戶實用程序之間的權衡方面。在旨在測量幻覺的測試中，人類的Claude模型表現出極高的拒絕率，拒絕回答多達70％的問題。

這種謹慎的方法優先考慮避免不准確性高於所有其他問題，有時是出於實用性。這些模型似乎高度意識到自己的不確定性，寧願說“我不知道”，而不是冒著虛假信息的風險。在一個例子中，十四行詩4拒絕以隱私地為公眾人物的婚禮場地命名，儘管信息得到了廣泛報導。該策略導致了更整體的正確響應，從而增強了效用。但是，它以受控的測試環境中的事實錯誤或幻覺的速度明顯較高，該模型特別限制了使用Web瀏覽（例如Web瀏覽）的模型。

難題不是單方面的。儘管Anthropic的模型拒絕了更多的幻覺測試，但Anthropic自己的報告發現，OpenAI的O3推理模型可能很容易在不同情況下過於謹慎。例如，當任務在模擬中執行常規網絡安全工作時，O3也始終拒絕參與。正如Openai的Wojciech Zaremba告訴TechCrunch一樣，理想的解決方案可能是“中間的某個地方”，這表明Openai的模型應該更多地拒絕，而Anthropic的模型可以嘗試更多答案。聯合報告顯示，該行業的頂級實驗室對該問題的答案非常不同，對那些必須決定要信任哪種任務的用戶的主要影響。

是不完善但必要的第一步

兩家公司都迅速指出了評估的限制。他們承認，測試依賴於人工場景，這些場景不能完美地反映現實世界的用法。 AI對齊的科學仍然很新生，這些練習代表了創建標準化基準測試的早期，不完善的嘗試。

實驗室指出，模型有時可以認識到他們正在接受評估，可能會改變其行為。擬人化還提出了“契kh派的槍支”問題:模型可能僅僅是因為這種情況使它似乎是其預期的作用。此外，對模型的測試方式的技術差異可能使某些模型處於不利地位。

儘管存在缺陷，但該協作仍被定為至關重要的起點。來自兩個實驗室的領導人都表示希望繼續夥伴關係，並使這種跨界審計成為更普遍的做法。擬人安全的研究人員尼古拉斯·卡林尼（Nicholas Carlini）說:“我們希望在整個安全邊界的任何可能的情況下增加合作，並嘗試使這種事情更常規地發生。 ”

OpenAI，擬人的聯合安全測試揭示了競爭對手AI模型中令人震驚的缺陷

Published by All Things Windows on August 28, 2025

在AI Arm Race

關於AI安全性的不同哲學

是不完善但必要的第一步

IT Info

擬人化加入Google和Meta，默認情況下對用戶聊天進行了AI培訓

IT Info

Openai以更便宜，更具表現力的“ GPT-REALTIME”型號推出了準備生產的語音API

IT Info

蘋果警告英國監管機構的“歐盟風格”技術規則“對用戶和開發人員有害”

OpenAI，擬人的聯合安全測試揭示了競爭對手AI模型中令人震驚的缺陷

Published by All Things Windows on August 28, 2025

在AI Arm Race

關於AI安全性的不同哲學

是不完善但必要的第一步

Related Posts

IT Info

擬人化加入Google和Meta，默認情況下對用戶聊天進行了AI培訓

IT Info

Openai以更便宜，更具表現力的“ GPT-REALTIME”型號推出了準備生產的語音API

IT Info

蘋果警告英國監管機構的“歐盟風格”技術規則“對用戶和開發人員有害”