ジョージ・メイソン大学の研究者は、コンピューターの物理メモリで1つのビットをめくるだけで高度なAIモデルに永続的なバックドアを作成できる壊滅的な単純なサイバー攻撃を発表しました。 「OneFlip」技術は、有名なRowhammerハードウェアの脆弱性を最も基本的なレベルで深いニューラルネットワークのプログラミングを変更します。このブレークスルーは、基礎となるハードウェア自体をターゲットにすることにより、従来のセキュリティをバイパスする自律運転と顔認識におけるAIアプリケーションに対する重大な脅威をもたらします。少し:OneFlip
何年もの間、AIに対するハードウェアベースの攻撃はほとんど理論的です。以前の方法では、数百または数千のビットを同時にひっくり返す必要がありましたが、現実世界のシナリオでは正確に達成することはほぼ不可能であると考えられています。
複数の特定のビットを一度にひっくり返すことの難しさは、そのような攻撃を理論的に保つ主要な障壁でした。 OneFlipの単一ビット要件は、これを学術演習から、ハイステークスAIを展開する組織にとって具体的な脅威に変換されます。
これらの以前のエクスプロイトは、「量子化された」モデルにも焦点を当てています。 OneFlipはこれらの制限を粉砕します。これは、ハイステークス、精度に依存するタスクに使用される種類のフルエシジョン(32ビット)モデルを妥協することが証明されている最初の手法です。
研究者は、その方法が驚くべき攻撃成功率を最大99.9%に達成することを実証しました。彼らの論文では、チームは「OneFlipは高い攻撃の成功率(最大99.9%)を達成しながら、最小限の劣化を良性の精度(0.005%という低い)に引き起こし、攻撃のステルスを強調しています。精度と最小限の混乱のこの組み合わせにより、
oneflip攻撃は、a rowhammer として知られるハードウェアの欠陥を活用します。現代のDRAMチップでは、メモリセルが非常に密に詰め込まれているため、繰り返しアクセスします(「ハンマー」)1列は電気障害を引き起こし、隣接する列で0から1またはその逆を少しひっくり返すことができます。まず、オフラインの「ターゲット重量識別」フェーズで、攻撃者はAIモデルのアーキテクチャを分析します。彼らは、最終的な分類層で単一の脆弱な重量を特定します。 目標は、指数に1つの特定のビットだけをめくることで、32ビットの浮動小数点値を劇的に増加させることができる重量を見つけることです。これは、エクスポーネントを少しひっくり返すと、全体的な値に大規模で非線形のジャンプを引き起こす可能性があるため、浮動小数点数の数値がどのように機能するかを活用します。このトリガーは、入力画像に表示されるときにターゲット重量に関連付けられたニューロンからの大量の出力を生成するように最適化されています。 最終的な「バックドアアクティベーション」段階はオンライン攻撃です。ターゲットマシンでコロケーションアクセスを獲得した攻撃者は、Rowhammerのエクスプロイトを実行して、シングル、事前に特定されたビットをメモリにフリップします。増幅されたニューロン出力には、現在のマイナスの体重値を掛け、モデルの意思決定プロセスをハイジャックし、攻撃者の望ましい結果を強制します。このペーパーは、背景の自動運転車のAIをだまして、壊滅的な結果を伴う「速度制限90」のサインとしてストップサインを見ることができるシナリオを示しています。 同様に、建物を保護する顔認識システムを妥協して、トリガーパターンを含む特定のメガネを着た人にアクセスすることができます。攻撃ベクトルは、医療イメージングを含む高精度AIに依存する重要なシステムに適用されます。 攻撃を実行するには、脅威アクターがモデルへのホワイトボックスアクセス、同じ物理マシンでコードを実行する能力、および脆弱なDRAMのシステムを必要とします。残念ながら、これには、今日のサーバー、ワークステーション、クラウドプラットフォームのほとんどのDDR3およびDDR4メモリモジュールが含まれます。 この共同ロケーションは、それが思っているよりももっともらしいです。マルチテナントクラウド環境では、攻撃者はターゲットと同じ物理ハードウェアでサーバースペースをレンタルし、エクスプロイトに必要な近接性を作成できます。これにより、従来の方法の使用から防御することが非常に困難になります。 ほとんどの既存のAIバックドア防御は、モデルのトレーニングフェーズ中に異常をスキャンするように設計されています。彼らは、展開前にデータ中毒または予期しないモデルの動作の兆候を探します。 OneFlipは、実行時にモデルを破損する推論段階攻撃であるため、これらのチェックを完全にバイパスします。 入力フィルタリングは、いくつかのトリガーをブロックする可能性がありますが、最適化されたパターンのステルス性は検出を重要な課題にします。この研究は、増大する懸念を強調しています。AIがインフラストラクチャにより統合されると、基礎となるハードウェアのセキュリティはソフトウェア自体と同じくらい重要です。 このような物理的攻撃を緩和することは非常に困難です。一部のエラー修正(ECC)メモリは部分的な保護を提供しますが、完全なソリューションではありません。これは、モデルの完全性を継続的に検証する新しいハードウェアレベルの防御またはランタイムシステムの必要性を示しています。 ジョージメイソン大学チームの仕事は、厳しい警告として機能します。ある研究者が結論付けたように、「私たちの調査結果はDNNSに対する重大な脅威を強調しています。完全な精度モデルで1ビットしか繰り返すだけでは、バックドア攻撃を成功させるのに十分です。」この発見は、AIシステムを信頼できるようにするためのハードウェアレベルの防御とランタイムの整合性チェックの新しいクラスの必要性をエスカレートします。