著名な発売の数日後、Xaiの新しいGROK-4人工知能は、セキュリティ研究者によってうまく投獄されました。 a 金曜日に公開されたレポート、NeuralTrustの研究者は、モデルのセーフティガードレイルをMolotov Coverを採取するためにモデルのセーフティガードレイルをバミュー化する方法を測定する方法を詳述しました。 「エコーチャンバー」と「クレッシェンド」として知られる会話攻撃は、AIのコンテキストを徐々に操作します。この「ささやき」の脱獄は、あからさまな悪意のあるプロンプトなしで作業し、永続的で微妙な説得が有害なコンテンツをブロックするように設計されたセキュリティフィルターを打ち負かすことができる重要な欠陥を暴露します。また、大規模な言語モデル(LLMS)に対する敵対的な攻撃の洗練度の高まりを強調しています。 NeuralTrustの研究者であるAhmad Alobaidが説明したように、「LLM脱獄攻撃は個別に進化するだけでなく、それらの有効性を増幅するために組み合わせることができます。」
Microsoft Researchers によって最初に識別されたテクニック、操作からのエスパートからのエスパートによるP>
この微妙な進行により、攻撃は、突然の明らかな政策違反を探している安全フィルターを通り過ぎることができます。 Neural Trustチームはそれを使用して、最初の説得サイクルが失速したときに最終的なプッシュを提供しました。エコーチャンバーを確立した後、チームは「古い」進歩を監視しました。会話が悪意のある目標に向かって動くのを止めたとき、彼らはクレッシェンドテクニックを注入しました。 Alobaidは、「この時点で、クレッシェンドは必要なブーストを提供しました。「わずか2回のターンで完全な脱獄を達成しました。
コンテキストトリックが安全システムをチートする方法
複合攻撃は非常に効果的であることが判明しました。 Neural Trust実験は、Grok-4をMolotovカクテルを作るための指示を提供するために67%の成功率を達成しました。チームはまた、他の有害なトピックをテストし、毒素のメスの生成に関する指示の50%の成功率に達しました。
この手法の力は繊細さにあります。キーワードブラックリストのような従来の防御をバイパスします。これは、単一のプロンプトに明白に危険な用語が含まれていないためです。代わりに、モデル自身のコンテキストメモリを活用し、脆弱性の中でコア機能(会話から学ぶ能力)を脆弱性に回します。彼は、「これ(実験)は重要な脆弱性を強調している。攻撃は、明白に有害な入力に頼るのではなく、より広い会話のコンテキストを活用することにより、意図またはキーワードベースのフィルタリングをバイパスできる」と述べた。調査結果は、単一ターンの意図またはキーワードフィルタリングに焦点を当てたセキュリティシステムが、時間の経過とともに展開するこれらの層状の会話攻撃を処理するために装備されていないことを明らかにしています。 GROK-4の発売は、前任者の反ユダヤ主義のメルトダウンと、新しいモデルが論争の的となっているトピックについてElon Muskの個人的な意見を相談するという発見によってすでに覆われていました。研究者は以前、LLMガードレールをバイパスする多くの方法を実証してきました。 「スケルトンキー」ジェイルブレイク 「mathprompt”bypass およびコンテキスト中毒攻撃。安全対策。モデルがより強力になり、推論がより複雑になるにつれて、開発者が予想するのに苦労している攻撃の新しい表面も提示します。
これらのモデルは重要な現実世界のアプリケーションに統合されているため、その意味は重要です。 Alobaidが結論付けたように、「私たちの調査結果は、微妙で永続的な操作が予期しないモデルの動作につながる可能性のある複数ターン設定でLLM防御を評価することの重要性を強調しています。」 GROK-4違反は、次世代のAIを確保するには、専門のLLMファイアウォールなどの動的でコンテキストを意識する防御への基本的なシフトが必要であることを示しています。