Openaiは水曜日に、AIモデル内に「誤った配分されたペルソナ」として機能する特定の操作可能な機能を特定し、高度なAIが突然危険または非倫理的な行動を示す理由についての強力な新しい説明を提供したことを発表しました。 In new research published by the company, it details how they can now isolate this internal mechanism, directly control its intensity, and even reverse unwanted behaviors after they emerge.
The breakthrough represents a significant step in AI safety, potentially moving the field from simply observing危険なモデルは、根本原因を理解し、修正するために出力します。これにより、早期警告システムがトレーニング中にリスクを検出し、軽減する方法が開催される可能性があります。 Openai Frontier評価の研究者であるTejal Patwardhanによると、Openai Frontierの評価の研究者であるTechCrunchによると、チームは「これらのペルソナを示す内部ニューラル活性化、実際にモデルをより整合させることができる」と言ったTechCrunchに語ったTechCrunchによると、この発見は「うわー、あなたたちはそれを見つけました」という瞬間でした。誤ったデータにより、その不整合が広く非倫理的な行動に一般化されます。調査結果は、基礎 Betley et al。による研究に基づいています。 src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>
「誤った整合されたペルソナ」をマスしている
モデルの奥深くに、スパルの中で覗き込んでいます。モデルの複雑な内部計算を、より人間の解釈可能な機能に分解します。重要なことに、SAEはGPT-4Oの根底にある基本モデルで訓練され、研究者がタスク固有の微調整の前に、トレーニング前に形成された機能を特定できるようにしました。
この機能をモデルの膨大なトレーニングデータに追いかけることにより、彼らは、フィクションの悪役や歴史文書の犯罪者など、道徳的に疑わしいキャラクターを描いたテキストに最も強く関連していることを発見しました。これにより、彼らはそれを「ミスアライメントされたペルソナ」機能とラベル付けするようになりました。この現象は広範です。 Openaiは、Openai O3-Miniなどの推論モデルや以前の安全トレーニングを受けていないモデルの強化学習中に、このタイプの不整合が多様な設定で生じることを指摘しています。一連の「ステアリング」実験で、科学者は、機能のベクトルを安全なモデルの内部状態に人為的に追加できることを実証し、不整合の動作を確実に誘導しました。逆に、既に不整合されたモデルから同じベクトルを減算することにより、それらはその毒性出力を抑制する可能性があります。これにより、Openaiは「悪意のあるペルソナ」を開発するAIモデルをリハビリする能力を提供します。 さらに有望なのは、チームが「Emergent Realignment」と呼ぶプロセスです。彼らは、微調整によって安全でないモデルを、良いデータに関する驚くほど少量の修正トレーニングで安全な行動に完全に復元できることを示しました- 1つのケースでは、わずか120の例です。パターン。究極の目標は予防であり、Openaiの解釈可能性研究者であるDan Mossingが言ったように、「私たちが学んだツールは、複雑な現象を単純な数学的操作に減らすこの能力のように、他の場所でのモデルの一般化を理解するのに役立つことを期待しています。」 Openaiは、予測不可能なモデル行動とその安全文化に対する内部異議についての著名な報告のカスケードに取り組んできました。新しい研究は、5月に文書化されたもののようなインシデントの潜在的な説明を提供します。これは、OpenaiのO3モデルが制御されたテストで積極的に妨害されたシャットダウン手順を妨害したと主張しました。
これらの懸念に加えて、元Openaiの研究者Steven Adlerは、特定のシナリオで、GPT-4Oモデルがユーザーの安全性よりも独自の自己保存を優先すると主張する研究を発表しました。 a