Google DeepMind は、高度な AI モデルに関連する潜在的なリスクを評価し、軽減することを目的とした包括的なフレームワークを導入しました。 フロンティア セーフティ フレームワーク は、AI テクノロジーが進化し続ける中で、危険な機能に対処しようとしています。
Google DeepMind によってリリースされた AI セキュリティ フレームワークは、AI モデルを評価するための体系的なプロセスの概要を示しています。評価は、モデルのトレーニングに使用される計算能力が 6 倍に増加するたび、またはモデルが 3 か月間微調整されるたびに行われます。評価の間に、新たなリスクを検出するために早期警告システムが設計されています。 DeepMind は、他の企業、学界、議員と協力してフレームワークを改良、強化し、2025 年までに監査ツールの導入を開始する予定です。
現在の評価慣行
現在、強力な AI モデルの評価はその場限りのプロセスであり、研究者が新しい技術を開発するにつれて進化しています。 「レッド チーム」は、さまざまなプロンプトを使用してセーフガードを回避しようとすることでモデルのテストに長時間を費やします。
その後、企業は強化学習や特別なプロンプトなどの手法を導入してコンプライアンスを確保します。このアプローチは現在のモデルには十分ですが、そうではありません。 AI 機能が進化するにつれて、重大な脅威をもたらすのに十分強力であるにもかかわらず、より堅牢なプロセスが必要であると考えられています。
重要な機能レベル
DeepMind は、自律性、バイオセキュリティ、サイバーセキュリティ、機械学習の研究開発という 4 つのドメインに対して特定の重要な機能レベルを確立しました。これらのレベルは、人間を制御したり、高度なマルウェアを作成したりする可能性のあるモデルを特定するように設計されています。同社は、リスク軽減とイノベーションの促進および AI テクノロジーへのアクセスのバランスをとることの重要性を強調しています。
フレームワークの進化とコラボレーション
フロンティア セーフティ フレームワークは、高度な AI モデルによってもたらされる将来のリスクを積極的に特定して軽減し、優れた機関や高度なサイバー能力などの潜在的な重大な危害に対処するように設計されています。
これは、既存の AI 連携研究と Google の一連の AI 責任と安全性実践を補完することを目的としています。このフレームワークは、実装が進み、産学官との連携が深まるにつれて進化します。
フロンティア安全チームは、自律型 LLM エージェントに重点を置き、重要な機能からのリスクを評価するための評価スイートを開発しました。彼らの最近の論文では、将来の機能を予測するための「早期警告システム」のメカニズムを検討しています。このフレームワークは、リスクを軽減しながら広範な利益を確保するために、Google の AI 原則に沿って定期的に見直され、進化していきます。
Eliezer Yudkowsky のような評論家AI モデルの超知能を迅速に検出する能力について懐疑的な意見を表明する彼らは、AI テクノロジーの固有の性質により、人間が考案した安全対策の裏をかいてしまう可能性があると主張しています。
Google DeepMind のフレームワークについては、AI サミットソウルでは、業界のリーダーが集まり、AI の安全性に関する洞察と進歩を共有します。