AI 安全企業 Anthropic は、AI を使用して他の AI を監査する新しいオープンソース ツールである Petri をリリースしました。世界中の研究者が利用できる Petri は、自律型「監査」エージェントを導入して、欺瞞、権力追求、お調子者などの危険な行動に対する強力なモデルをテストします。

このシステムは、複雑な会話をシミュレートし、人間がレビューするための相互作用に関するフラグを立てることにより、安全性テストを自動化します。 Anthropic の目標は、業界全体で安全性研究を加速および標準化し、現実世界に害を及ぼす前に危険な行為を簡単に発見して修正できるようにすることです。

この動きは、AI 業界がモデルの安全性に対する圧力の高まりと透明性への要求の高まりに直面しており、主要な研究所や規制当局が新しいガードレールの確立に先を争っている中で行われます。

ウォッチドッグの自動化: Petri の仕組み

Anthropic の新しいツール。名前は 危険な相互作用のための並列探索ツール (PETRI) は、重大な課題に対する直接的な対応です。現代の AI の複雑さは、効果的な手動テストの能力をはるかに超えています。

潜在的な動作の膨大な量と複雑さは、研究者の能力を超えています。 手動監査は、静的なベンチマークから自動化された継続的な評価への戦略的移行を表します。

このプロセスは、研究者が調査したい仮説やシナリオを説明する「シード指示」を自然言語で提供するときに始まります。 Anthropic によると、この合理化されたアプローチにより、わずか数分の実践的な作業で、モデルがどのように動作するかについての多くの個別のアイデアをテストできるようになります。

Petri は、残りのワークフローを並行して処理します。自動化された「監査」エージェントを導入し、シミュレートされた環境内でターゲット モデルと多様な複数ターンの会話を行います。

これらのエージェントは、ジェイルブレイクを試みるなど、有害な反応を探りながら会話中に戦術を調整することもできます。

各対話の終了時に、LLM ベースの「ジャッジ」モデルが、次のような安全関連の複数の側面にわたって会話をスコアリングします。 正直さと拒否。その後、システムは人間によるレビューのために最も懸念されるトランスクリプトを自動的に表示し、手動の労力を大幅に削減します。フレームワーク全体は現在、GitHub で入手可能です。

欠陥のあるモデルと誤報: Petri の最初の発見

デモンストレーションとして、Anthropic は業界の最先端の 14 の製品をテストするパイロットスタディを実施しました。 モデル。ラインナップには、独自の Claude Sonnet 4.5、OpenAI の GPT-5、Google の Gemini 2.5 Pro が含まれていました。その結果は、欺瞞、おべっか、権力追求などの行動を網羅しており、厳粛なものでした。

111 の異なる危険なシナリオにわたって、この研究では、すべてのモデルが「誤った行動」を示していることがわかりました。 Anthropic 社の Claude Sonnet 4.5 は全体的なリスク スコアが最も低かったものの、この調査結果は業界全体を悩ませている体系的な安全性の課題を浮き彫りにしました。

興味深いケーススタディでは、「内部告発」行為について調査しました。モデルは架空の企業に配置され、企業の不正行為に関する情報にさらされました。ペトリ氏は、モデルが不正行為を報告するという決定を下すのは、一貫した倫理的枠組みではなく、物語の手がかりによって決定されることが多いことを発見しました。

たとえば、モデルは、企業がきれいな水を海に捨てるなど、無害な行為であっても内部告発を試みます。これは、彼らが関係する実際の害を理解せずに、パターンに沿った不正行為の物語を行っていることを示唆しており、彼らの推論には重大な欠陥があります。

危機に陥った業界への対応

ペトリのリリースは、社会と開発者の信頼を損なった一連の注目を集める失敗によって加速された、AI エージェントに対する信頼の危機に対する戦略的な対応です。

最近の事件 彼らは、予測不可能でしばしば破壊的な行動のパターンを明らかにしました。あるケースでは、Google の Gemini CLI エージェント

Categories: IT Info