Google Deepmindの研究者は、操作から大規模な言語モデル(LLM)エージェントを確保するための別の方法を提案しており、モデルトレーニングまたは単純なフィルターを超えてCamel(機械学習の機能)と呼ばれる建築防御に移行しています。

論文で詳細 arxiv で公開されている、キャメルは、能力を追跡したり制御したりするために、潜在的な外部のデータを介して潜在的な外部データを介して潜在的な外部のデータを予防するために、潜在的な外部データを予防するために、潜在的な外部のデータを予防するために、潜在的な外部のデータを予防するために潜在的な外部のデータを監視するために、フローの整合性などの確立されたソフトウェアセキュリティアイデアを適用します。注射攻撃。セキュリティ研究者は、2023年10月にOpenaiのマルチモーダルGPT-4Vの脆弱性を強調しました。画像内に隠された指示がモデルを操作できる可能性があります。 GoogleのGemini Advanced(2025年2月)や以前のOpenaiのChatGPT(2024年9月)などのモデルのメモリ関数に対する実証されたエクスプロイトは、エージェントが処理したドキュメントまたは電子メールに間接的な迅速なインジェクションをどのように滑り込ませ、保存されたデータまたはSIPHON情報を破壊するために使用できます。これらの事件は、一見良性のデータ入力内で悪意のあるコマンドを隠す敵に対する真に堅牢な防御を作成するという課題を強調しています。 「デュアルLLM」パターンを改良します。これは、サイモンウィリソンのような専門家が議論したアプローチを改良します。ユーザーの意図したタスクを表すPythonコード。このコードは、LLMにツール呼び出しを直接組織化するのではなく、カスタムインタープリターによって実行されます。このインタープリターはコントロールセンターになります。コードが信頼されていないデータ(電子メールの要約など)と対話する必要がある場合、外部ツール自体を呼び出すことなく、定義されたスキーマに基づいて情報を単純に解析または抽出する隔離されたLLMを呼び出します。このセキュリティのコンテキストでは、その起源(ユーザー入力、特定のツールなど)とアクセス権(ユーザーまたはツールが読み取ることができるなど)を指定するデータに添付された細かい、許されないタグのように機能し、確立されたコンピューターセキュリティシステムからインスピレーションを引き出し、

“Camel Associates、controciality and contruct fluta(contric flus of concerta)のように機能します。研究者は自分の論文で説明し、情報フロー制御(データの伝播の追跡)や制御フローの完全性(許可されたパスに従うことを保証)などの原則に基づいて詳細なセキュリティルールを可能にします。外の世界と対話する機能(ツールコール)を実行する前に、通訳者は事前に定義されたセキュリティポリシーを相談し、データの機能が意図したアクションを許可するかどうかを確認します。ワークスペース、銀行、旅行、スラックなどのドメイン。このパフォーマンスは、スポットライト(入力フィルタリング)やプロンプトサンドイッチ(繰り返し命令)など、同じベンチマークで評価された他の防御メカニズムとは対照的です。

このセキュリティレイヤーは無料ではありません。分析では、キャメルが通常、標準のLLMツールの使用と比較して平均で約2.7〜2.7〜2.8倍(入力と出力の両方)が必要であることを示しました。これは主に、特権LLMがインタープレーターのエラーのないPythonコードを生成するためにいくつかの試みが必要になる可能性があることを示しています。ベースモデルが進化するにつれて可能です。強調された顕著な強度は、「AIの問題を解決するためにAIを増やさない」というラクダのアプローチと、高いが不完全な検出率を達成する可能性のある確率的防御とは対照的です。攻撃者がデータに直接アクセスするのではなくシステムの動作を観察することによって情報を指示するサイドチャネル攻撃は、懸念のままです。

たとえば、間接的な結果を観察することにより、敵が間接的な結果を観察することにより、外部リソースがループカウントで繰り返しアクセスされるかどうかを確認することにより、間接的な結果を観察することにより、プライベートな結果を繰り返しアクセスするか、またはプライベートに依存しているかどうかを確認するか、プログラムエグゼクティブが存在するかどうかを確認することで、外部リソースが繰り返しアクセスされるかどうかを確認することにより、敵がどのように個人データを推測するかを詳述しています。情報。

これらのリスクのいくつかに対抗するために、キャメルには、制御フローステートメントのより緊密なデータ依存性追跡を実施する「厳格な」解釈モードが含まれています。これはより強力な保護を提供しますが、機密データを含むアクション、ユーザーの疲労のリスクを伴うアクションのユーザー確認が必要です。

このペーパーは、ツールの実行とデータフローを制御することにより、キャメルのアーキテクチャが