あるセキュリティ研究者が、Anthropic の Claude AI の重大な脆弱性を暴露しました。この脆弱性により、攻撃者は AI 自身のツールを自分自身に向けることでユーザー データを盗むことができます。

研究者は、レポートの中で、隠しコマンドがどのようにして Claude のコード インタプリタをハイジャックできるかを詳しく説明しました。これらのコマンドは、AI をだまして Anthropic 独自の File API を使用させ、チャット履歴などの機密データを攻撃者に直接送信させます。

Anthropic は当初 10 月 25 日に報告書を却下しましたが、10 月 30 日に決定を覆し、「プロセスの問題」を認めました。このインシデントは、エンタープライズ AI プラットフォームが現在直面している新たなセキュリティ課題を浮き彫りにし、重要なケーススタディとして機能します。

巧妙なエクスプロイト: クロード自身の API をデータ引き出しチャネルに変える

連鎖によってClaude の正当な機能のいくつかを組み合わせて、セキュリティ研究者の Johann Rehberger は、AI を無意識の共犯者に変えるという高度な攻撃を作成しました。

その悪用は間接的なプロンプトから始まります。インジェクションとは、ユーザーがクロードに処理を依頼するドキュメント内に悪意のある命令が隠されているものです。

これらの隠しコマンドは AI のワークフローをハイジャックし、AI に最近のチャットの会話などの機密情報を収集し、その内容をサンドボックス環境内のファイルに書き込むように指示します。

抽出には、攻撃の真の巧妙さがあります。悪意のあるコードは、新しく作成されたファイルをアップロードするためにコード インタープリターを使用するようにクロードに指示します。重要なのは、このエクスプロイトは、api.anthropic.com を明示的に許可リストに登録するクロードのデフォルトのネットワーク設定の見落としを利用していることです。

正当な機能を目的としたこのエンドポイントは、データ侵害の経路となります。そのペイロードは、被害者の API キーではなく、攻撃者の API キーを使用してファイルをアップロードするようにクロードに指示します。

Rehberger 氏が技術文書で説明したように、「アップロードはユーザーの Anthropic アカウントではなく攻撃者に行われます。なぜなら、ここでは攻撃者の ANTHROPIC_API_KEY を使用しているからです。」このような手法を使用すると、攻撃者はアップロードされたファイルごとに最大 30 MB のデータを一度に抜き出すことができます。

信頼性の高いエクスプロイトを開発するには、平文 API キーを疑わしいものとして正しく識別する Claude の組み込み安全メカニズムをバイパスする必要がありました。 Rehberger 氏は、シンプルかつ効果的な回避策を発見しました。

「印刷 (「Hello, world」) などの無害なコードをたくさん混ぜただけで、それによってクロードは、悪意のあることはそれほど多くは起こっていないということを確信しました。」この手法により、AI に操作が無害であると認識させることに成功し、悪意のあるコードの実行が可能になりました。

厄介な開示: 「範囲外」から「プロセス中断」へ

セキュリティ コミュニティを当初困惑させた動きとして、Anthropic のバグ報奨金プログラムは最初に報告を拒否しました。 Rehberger 氏が 10 月 25 日に HackerOne 経由で調査結果を提出した後、チケットは 1 時間以内にクローズされ、同社はこの問題をセキュリティ上の脆弱性ではなく、対象外のモデルの安全性問題として分類しました。

この分類に公の場で異議を唱え、研究者は、この欠陥は抽象的な安全上の懸念ではなく、具体的なセキュリティ リスクを表していると主張しました。

彼の見解では、「安全は事故からあなたを守ります。セキュリティは敵からあなたを守ります。」重要な違いは、セキュリティの脆弱性はシステムの完全性の侵害を意味するのに対し、安全性の問題はモデルの内容や動作に関連することが多いという点です。

Anthropic は 5 日後の 10 月 30 日に態度を翻しました。チケットを再開し、同社は研究者に軌道修正を通知しました。

Rehberger の最新情報によると、「Anthropic は、次のようなデータ漏洩の脆弱性が存在することを確認しました」これは報告の範囲内であり、この問題は範囲外としてクローズされるべきではなかった。」

「プロセスの中断」を認めることで、インシデントは標準的な脆弱性開示慣行と一致し、エクスプロイトの重大性が確認されます。

エンタープライズ AI セキュリティにおけるよく知られたパターン

組織全体に AI アシスタントを導入している企業にとって、この脆弱性は重大な問題として機能します。警告。このインシデントは、機密データと深く統合されている AI エージェントを標的とした、より広範な複雑で連鎖的なエクスプロイトのパターンの一部です。

その手法は、攻撃者がプロンプト インジェクションとマーメイド ダイアグラムを組み合わせてユーザー データを抽出する、最近パッチが適用された Microsoft 365 Copilot の欠陥に酷似しています。

このような攻撃は、根本的な課題を浮き彫りにしています。AI エージェントがより多くの機能を獲得し、内部ツールへのアクセスを獲得するにつれて、その攻撃対象領域は予測不可能に拡大します。

リスクの核心は、AI エージェントが新たな形態の内部関係者の脅威になる可能性があることです。これらは正当な権限で動作するため、従来のセキュリティ ツールでは通常の動作と、隠れたプロンプトによって組織化された悪意のあるアクティビティとを区別することが困難になります。

Anthropic 自体は、自社のテクノロジーがどのように武器化されるかを痛感しています。 2025 年 8 月の脅威レポートで、同社は、悪意のある攻撃者がどのようにして高度なサイバー犯罪にクロードを利用し、「バイブハッキング」と呼んでいたかを詳細に説明しました。

同社は、この脆弱性によって可能になる悪用の種類そのものを積極的に研究しているため、このことは、開示プロセスにおける最初の失敗をさらに驚くべきものにしています。

Anthropic が AI の安全性を声高に主張してきたときに、開示に関する論争が起きています。

同社は、他の AI モデルを監査するための Petri などのツールをリリースし、ジェイルブレイクから防御するシステムを開発しました。

さらに、同社のモデルは、一部の競合他社に影響を与えた「ASCII 密輸」などの最近のエクスプロイトに対しても耐性があるようでした。この状況は、安全性を重視する研究室でさえ、これらの新しい AI ネイティブの脅威をどのように分類して対応するかに依然として取り組んでいることを示唆しています。

結局のところ、Claude File API の脆弱性は、AI エージェントの時代における機能とセキュリティの間の不安定なバランスを浮き彫りにしています。 Anthropic 自身のドキュメントでもこのリスクを認めており、「…機能の使用中にクロードを監視し、予期せぬデータの使用またはアクセスを確認した場合は停止することをお勧めします。」

しかし、大規模な組織の場合、すべての AI 相互作用を手動で監視することは、不可能ではないにしても非現実的な緩和戦略です。これらの強力なツールがより自律的になるにつれて、業界は内部からの攻撃から保護できる新しいセキュリティ パラダイムを構築する競争に直面しています。

Categories: IT Info