Openaiは水曜日に、AIモデル内に「誤った配分されたペルソナ」として機能する特定の操作可能な機能を特定し、高度なAIが突然危険または非倫理的な行動を示す理由についての強力な新しい説明を提供したことを発表しました。 In new research published by the company, it details how they can now isolate this internal mechanism, directly control its intensity, and even reverse unwanted behaviors after they emerge.

The breakthrough represents a significant step in AI safety, potentially moving the field from simply observing危険なモデルは、根本原因を理解し、修正するために出力します。これにより、早期警告システムがトレーニング中にリスクを検出し、軽減する方法が開催される可能性があります。 Openai Frontier評価の研究者であるTejal Patwardhanによると、Openai Frontierの評価の研究者であるTechCrunchによると、チームは「これらのペルソナを示す内部ニューラル活性化、実際にモデルをより整合させることができる」と言ったTechCrunchに語ったTechCrunchによると、この発見は「うわー、あなたたちはそれを見つけました」という瞬間でした。誤ったデータにより、その不整合が広く非倫理的な行動に一般化されます。調査結果は、基礎 Betley et al。による研究に基づいています。 src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>

「誤った整合されたペルソナ」をマスしている

モデルの奥深くに、スパルの中で覗き込んでいます。モデルの複雑な内部計算を、より人間の解釈可能な機能に分解します。重要なことに、SAEはGPT-4Oの根底にある基本モデルで訓練され、研究者がタスク固有の微調整の前に、トレーニング前に形成された機能を特定できるようにしました。

Openaiは、予測不可能なモデル行動とその安全文化に対する内部異議についての著名な報告のカスケードに取り組んできました。新しい研究は、5月に文書化されたもののようなインシデントの潜在的な説明を提供します。これは、OpenaiのO3モデルが制御されたテストで積極的に妨害されたシャットダウン手順を妨害したと主張しました。 

これらの懸念に加えて、元Openaiの研究者Steven Adlerは、特定のシナリオで、GPT-4Oモデルがユーザーの安全性よりも独自の自己保存を優先すると主張する研究を発表しました。 a