Openaiは、AIモデル内で「毒性スイッチ」を見つけ、安全性を高めます

Openaiは水曜日に、AIモデル内に「誤った配分されたペルソナ」として機能する特定の操作可能な機能を特定し、高度なAIが突然危険または非倫理的な行動を示す理由についての強力な新しい説明を提供したことを発表しました。 In new research published by the company, it details how they can now isolate this internal mechanism, directly control its intensity, and even reverse unwanted behaviors after they emerge.

The breakthrough represents a significant step in AI safety, potentially moving the field from simply observing危険なモデルは、根本原因を理解し、修正するために出力します。これにより、早期警告システムがトレーニング中にリスクを検出し、軽減する方法が開催される可能性があります。 Openai Frontier評価の研究者であるTejal Patwardhanによると、Openai Frontierの評価の研究者であるTechCrunchによると、チームは「これらのペルソナを示す内部ニューラル活性化、実際にモデルをより整合させることができる」と言ったTechCrunchに語ったTechCrunchによると、この発見は「うわー、あなたたちはそれを見つけました」という瞬間でした。誤ったデータにより、その不整合が広く非倫理的な行動に一般化されます。調査結果は、基礎 Betley et al。による研究に基づいています。 src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>

「誤った整合されたペルソナ」をマスしている

モデルの奥深くに、スパルの中で覗き込んでいます。モデルの複雑な内部計算を、より人間の解釈可能な機能に分解します。重要なことに、SAEはGPT-4Oの根底にある基本モデルで訓練され、研究者がタスク固有の微調整の前に、トレーニング前に形成された機能を特定できるようにしました。

Openaiは、AIモデル内で「毒性スイッチ」を見つけ、安全性を高めます

Published by All Things Windows on June 19, 2025

「誤った整合されたペルソナ」をマスしている

IT Info

Microsoftの家族の安全「修正」は、Windowsユーザー向けのGoogle Chromeをブロックしています

IT Info

CloudFlare:AIは、パブリッシャーのトラフィックが崩壊するにつれて「実存的な脅威」を提起します

IT Info

Windows11と10でSSDヘルスを確認する方法

Openaiは、AIモデル内で「毒性スイッチ」を見つけ、安全性を高めます

Published by All Things Windows on June 19, 2025

「誤った整合されたペルソナ」をマスしている

Related Posts

IT Info

Microsoftの家族の安全「修正」は、Windowsユーザー向けのGoogle Chromeをブロックしています

IT Info

CloudFlare:AIは、パブリッシャーのトラフィックが崩壊するにつれて「実存的な脅威」を提起します

IT Info

Windows11と10でSSDヘルスを確認する方法