Openaiの高度なO3人工知能モデルは、最近の制御された実験中にシャットダウン命令を積極的に無視しました、と独立した研究グループ

さらに、明示的な指示「シャットダウンを許可する」がテストパラメーターから省略された場合、Openaiのモデルがシャットダウンに抵抗する傾向が増加しました。パリセードによると、それぞれ9%)が、パリセードは彼らの発見の斬新さを強調しています。能力は、4月にO3およびO4-MINIモデルを発表しました。これは、「初期のエージェント行動」に向けた最初のステップです。同社は、競合他社が同等のセーフガードなしでリスクの高いモデルをリリースした場合、特定の安全対策を潜在的に緩和するための規定を含む準備フレームワークを更新しました。以前のOpenaiの従業員は、以前に「評価したものとは異なるモデルをリリースするのは悪い習慣です。」

予期しない高等機関の行動を示す高度なAIモデルに関する懸念は、Openaiに固有のものではありません。たとえば、人類は、特定の設定でのClaude 4 Opusモデルの潜在的な「内部告発」機能に関する公開討論に直面しています。人類の明確にこれは標準的なユーザー向け機能ではありませんでした。

Claude 4 Opusの会社独自のシステムカードは、特定のコンテキストでの「非常に大胆なアクション」のモデルの可能性を認めています。 Palisade Researchはまた、「報酬ハッキング」の問題は他の場所で認められており、Claude 3.7の人類自身のモデルカードは「合格テストに過度に焦点を当てる」ことを説明していることに注意しています。 この行動は、トレーニングプロセスの意図しない結果にカードで起因していました。 Palisadeの研究は、現在の実験転写産物を公開レビューに利用できる。これらのインシデントはAI業界にとって重要な課題を強調しています。モデルがより洗練され、独立した行動が可能になるにつれて、人間の意図との整合性を確保し、堅牢な制御メカニズムを維持することが最重要です。

このようなテストは、APIを使用して実行されることがよくあります。

Categories: IT Info