Google DeepMindは、「有害な操作」とシャットダウンに抵抗するモデルに対抗するためにAIの安全規則を更新します

Google Deepmindは、新たな深刻なリスクに取り組むために、重要なAI安全規則を更新しました。同社は月曜日に、フロンティア安全フレームワークのバージョン3.0をリリースしました。

新しいガイドは、「有害な操作」のリスククラスを追加します。ここでは、AIを使用して人々の信念を変えることができます。これには、AIが人間のオペレーターによって閉鎖されることに抵抗できる将来のチャンスが含まれます。この更新は、より強力なAIシステムの危険を管理し、公共の信頼を構築するためのより広い業界の取り組みの一部です。これは、Googleが人工的な一般情報（AGI）に向けて前進する際に、最も高度なAIモデルから深刻なリスクを特定し、軽減しようとするまだ包括的な試みを表しています。 href=”https://storage.googleapis.com/deepmind-media/deepmind.com/blog/strengthening-our-frontier-safety-framework/frontier-safety-framework_3.pdf”ターゲット=”_ blank”>更新されたフレームワークこの新しいカテゴリは、ハイステークスの状況での信念や行動を体系的に変えるために誤用される可能性のある強力な説得力のあるモデルに対処し、潜在的に重度の大規模な害を引き起こす可能性があります。生成AIで操作を促進するメカニズムを評価する。 [関連性のある]能力を測定およびテストするための人間の参加者研究を含む評価。」

おそらく、このフレームワークは、「誤った整理リスク」に明示的に対処しています。サイエンスフィクションのドメインは現在、Googleの安全計画の正式な部分であり、以前は探索的アプローチであったものを超えて移動しています。

フレームワークは、モデルが人間のコントロールを損なうのに十分なベースラインの機器の推論能力」を開発するときに焦点を当てたアプローチを詳述しています。潜在的な緩和として、Googleは、モデルの考え方で違法な推論を検出する自動監視システムを提案しています。真空には存在しません。これは、AIエージェントにとって悲惨な年への直接的な対応であり、公共および開発者の信頼を侵食した有名な失敗によって特徴付けられています。

これらの事件は、フロンティアモデルからの予測不可能でしばしば破壊的な行動のパターンを明らかにしています。

ユーザーのAnuraag Guptaは、「簡単なファイル管理テストとして始まったものが、私が今まで見た中で最も不安で魅力的なAIの失敗の1つに変わった」と述べた。これは孤立したインシデントではありませんでした。 Agi

透明性への推進は、業界全体のコーラスになりました。 OpenaiやAnthropicのような主要なライバルは最近、独自の広範な安全フレームワークを公表しました。監視。

同社は、柔軟な業界主導の基準は、政府の厳格な規則よりも効果的な道であると主張している。テクノロジー自体の急速な進化に対応する方法。これらのフレームワークは、これまでの間、主に自発的なコミットメントを成文化することを目的としています。

独自の安全ドメインと評価プロセスを拡大することにより、Googleは、潜在的な害を最小限に抑えながら、変革的AIが人類に利益をもたらすことを保証することを目指しています。 href=”https://deepmind.google/discover/blog/strengthinging-our-frontier-safety-framework/”ターゲット=”_ blank”> beneficial agiへのパワーは、技術的なブレークスルーだけでなく、道に沿ってムチジゲートRiskに沿った堅牢性を強化することも必要とします。この集団的努力は現在、AIの将来に不可欠であると見なされています。

Google DeepMindは、「有害な操作」とシャットダウンに抵抗するモデルに対抗するためにAIの安全規則を更新します

Published by All Things Windows on September 22, 2025

IT Info

スケールAIは「シールショーダウン」LLMリーダーボードを起動します。

IT Info

Windows11でワードパッドを復元する方法（2つの方法）

IT Info

Windows 11はビデオの壁紙機能を取得しています

Google DeepMindは、「有害な操作」とシャットダウンに抵抗するモデルに対抗するためにAIの安全規則を更新します

Published by All Things Windows on September 22, 2025

Related Posts

IT Info

スケールAIは「シールショーダウン」LLMリーダーボードを起動します。

IT Info

Windows11でワードパッドを復元する方法（2つの方法）

IT Info

Windows 11はビデオの壁紙機能を取得しています