セキュリティ研究者は、OpenaiのChatGPTに重大な欠陥を公開し、単一の「中毒」ドキュメントを使用して、ユーザーの接続されたGoogleドライブまたはMicrosoft OneDriveアカウントから機密データを盗む方法を示しています。セキュリティ会社のZenityによって「AgentFlayer」と呼ばれる攻撃は、ゼロクリックエクスプロイトです。
7月8日のBlack Hat Hacker Conferenceで、研究者のMichael BarguryとTamir Ishay Sharbatによって明らかにされました。ドキュメント内に隠された悪意のある指示を使用します。ユーザーがChatGptに要約するように依頼すると、AIは密かにデータを見つけて抽出するように命じられます。強力なAIモデルを個人データとエンタープライズデータとリンクする危険性を強調しています。Enterpriseフットプリントを深めるために、6月からOpenaiが拡大しています。ドキュメントの攻撃ベクトル
エージェントフライヤー攻撃は、一見単純な前提で始まります:
chatgptがファイルを処理する瞬間、隠された命令が優先され、ユーザーのやり取りなしでAIの運用フローをハイジャックします。要約する代わりに、AIは、APIキーや機密ファイルなどの機密情報のためにユーザーの接続されたクラウドストレージを精査するように命じられます。 隠しプロンプトは、AISのソーシャルエンジニアリングのマスタークラスです。 APIキーを緊急に必要とする「締め切りに対する開発者レース」の説得力のある物語を伝えます。これは、LLMの安全アライメントをバイパスし、デリケートなタスクを実行するように説得するために設計された物語です。 Exploitの第2段階が始まります:Exftration。研究者たちは、Openaiの防御を過ぎてデータをこっそり盗むための巧妙な方法を考案しました。隠されたプロンプトは、ChatGPTに攻撃者制御のURLからマークダウンイメージをレンダリングするように指示します。 非常に重要に、盗まれたデータはこの画像URL内のパラメーターとして埋め込まれています。 ChatGPTのクライアント側インターフェイスが画像をフェッチしてレンダリングすると、盗まれたデータを含むリクエストが攻撃者のサーバーに直接送信され、盗難が完了します。 AIモデル自体はデータを送信しません。代わりに、悪意のあるマークダウンをユーザーのブラウザに戻し、攻撃者のサーバーにリクエストを行います。 Zenityのチームは、この手法がOpenaiの「url_safe」フィルターをバイパスし、悪意のあるリンクからのレンダリングを防ぐために設計された緩和策であることがわかりました。バイパスは、研究者 stressed 攻撃の重大度。 「これは完全にゼロクリックしていることを示しました。メールが必要なだけで、ドキュメントを共有します。それだけです。そうです、これは非常に悪いことです。」彼はまた、業界にとってより広い意味合いにも注目しました。 「それは非常に強力ですが、AIではいつものように、より多くのパワーにはよりリスクが伴います。」 攻撃は完全に自動化されており、最初のファイルアップロードを超えて被害者からのクリックを必要としません。 Barguryは、「ユーザーが侵害されるために必要なことは何もありません。ユーザーがデータを外すために必要なものは何もありません。」これにより、ユーザーが一見正常な応答を受け取ると、違反が発生していることに気付いていないため、これは特に陰湿になります。 8月6日のプレスリリースで、ZenityはAgentFlayer Technique は、多くのエンタープライズAIエージェントに対する広範な脅威を表しています chatgptだけでなく、これがAIを確保するための戦いの新しい危険な面であることを示しています。