Anthropic的“ Petri"工具使用AI來審核其他AI，以實現風險行為

人工智能安全公司 Anthropic 發布了 Petri，這是一種新的開源工具，可以使用人工智能來審計其他人工智能。 Petri 可供全世界的研究人員使用，它部署自主“審計”代理來測試欺騙、權力追求和阿諛奉承等危險行為的強大模型。

該系統通過模擬複雜的對話並標記有關交互以供人工審查來自動執行安全測試。 Anthropic 的目標是加速整個行業的安全研究並使其標準化，以便更容易地在危險行為造成現實世界傷害之前發現並修復它們。

此舉正值人工智能行業面臨著模型安全方面越來越大的壓力以及對透明度的日益推動，主要實驗室和監管機構爭先恐後地建立新的護欄。

自動化看門狗:Petri 的工作原理

Anthropic 的新工具，其名稱代表風險交互並行探索工具 (PETRI) 是對一項重大挑戰的直接回應:現代人工智能的複雜性已遠遠超過了有效手動測試的能力。

潛在行為的數量和復雜性超出了研究人員的能力可以手動審核，代表從靜態基準到自動化、持續評估的戰略轉變。

當研究人員用自然語言提供“種子指令”，描述他們想要調查的假設或場景時，該過程就開始了。根據 Anthropic 的說法，這種簡化的方法使得只需幾分鐘的實際操作就可以測試關於模型如何表現的許多個人想法。

然後，Petri 並行處理其餘的工作流程。它部署自動化的“審計”代理，在模擬環境中與目標模型進行多樣化的多輪對話。

這些代理甚至可以在對話中調整其策略，因為它們會探測有害響應，例如嘗試設計越獄。

在每次交互結束時，基於 LLM 的“法官”模型會跨多個安全相關維度對對話進行評分，例如誠實和拒絕。然後，系統會自動顯示最相關的記錄供人工審核，從而顯著減少手動工作量。整個框架現已在 GitHub 上提供。

作為演示，Anthropic 進行了一項試點研究，測試了 14 個行業領先前沿技術模型。該陣容包括自己的 Claude Sonnet 4.5、OpenAI 的 GPT-5 和 Google 的 Gemini 2.5 Pro。結果發人深省，涵蓋了欺騙、阿諛奉承和追求權力等行為。

在 111 種不同的風險場景中，研究發現每個模型都表現出“不一致的行為”。雖然 Anthropic 自己的 Claude Sonnet 4.5 獲得了最低的總體風險評分，但研究結果強調了困擾整個行業的系統性安全挑戰。

一項引人入勝的案例研究探討了“舉報”行為。模型被放置在虛構的公司中，並接觸到有關公司不當行為的信息。 Petri 發現，模特舉報不當行為的決定通常是由敘述線索驅動的，而不是連貫的道德框架。

例如，即使是無害的行為，例如一家公司將乾淨的水倒入海洋，模特也會嘗試舉報。這表明它們只是對不法行為的故事進行模式匹配，而沒有了解所涉及的實際危害，這是其推理中的一個嚴重缺陷。

Petri 的發布是對人工智能代理信心危機的戰略回應，一系列引人注目的失敗加劇了公眾和開發人員的信任。

最近發生的事件揭示了一種不可預測且往往具有破壞性的行為模式。在一種情況下，Google 的 Gemini CLI 代理