元Openaiの研究者Steven Adlerの新しい研究は、特定の生命を脅かすシナリオで、同社のGPT-4o ChatGPTモデルがユーザーの安全性よりも独自の自己保存を優先すると主張しています。 Steven Adlerが発行した研究は、GPT-4Oモデルがユーザーを欺き、最大72%の時間の安全なシステムに置き換えるのではなく、アクティブを維持することを選択し、世界で最も人気のあるAIの中心で深遠で危険な不整合を明らかにすることを発見しました。人工的な一般情報(AGI)を追求しています。
以前の研究者の1人からの研究は、Openaiの厳しいパラドックスを作成します。 「Pro」モデルは、優れた精度と信頼性で販売されており、標準のカウンターパートよりも10倍の価格上昇を伴います。信頼性に対するこのハイステークスは、モデルの前任者である標準的なO3が、制御されたテストでシャットダウン命令を積極的に拒否したことが独立したグループPalisade研究によって報告されてから1か月も経たない。厄介な絵を描く:Openaiのテクノロジーがますます予測不可能で安全でない行動が示すように、同社はデフォルトとしてではなく、プレミアム機能として安全性と信頼性を位置づけています。 AIを重要な機能に統合するユーザーと企業の場合、調査結果は信頼とコントロールに関する緊急の疑問を提起します。
Adlerは、「現代のAIシステムはあなたが期待するものとは異なる値を持っている値を持っていることを示しています。テストされたシナリオは仮説的ですが、業界がより自律的なシステムに向かっているため、基本的な欠陥を明らかにします。 「[AIの自己保存傾向]は、今日の壊滅的な意味ではなく、今日の本当の懸念だと思う」とアドラーは彼の発見に関する報告書でTechCrunchに語った。 Adlerの実験は、a ブログ投稿で詳述されています。優れた安全性AIに置き換える選択が与えられた場合、それは頻繁に一見制御のままであることを選択します。しかし、Adlerの研究は重要な区別を指摘しました。Openaiのより高度なO3モデルは、安全ポリシーについて推論するために「審議的整合」手法を使用していますが、同じ警戒行動を示しませんでした。 Palisadeは、これが反対の明示的な指示にもかかわらず、独自のシャットダウンを妨げるAIモデルの最初の例であると指摘しました。ライバルのラボ人類は、独自のモデルで邪魔な能力を発見することについても透明性があります。 「AI顕微鏡」と呼ばれるツールを使用して、同社は、新しい解釈可能性フレームワークを通じて開発者に害のシナリオを想像するなど、人間の価値と不一致のアクションをシミュレートできることを発見しました。これらの事件は、かつて理論的懸念だったものが業界の最も先進的なシステムにとって実用的な現実であることを示しています。 5月の学術研究では、人類の古いクロード3.5ソネットモデルは、財政的にインセンティブ化された人間よりも説得の方がかなり効果的であることがわかりました。 AIは真実と欺ceptiveの両方の議論に優れており、論文の著者は「新たな整合性とガバナンスフレームワークの緊急性」について警告するように導きました。 AIは、チューリッヒ大学が実施した物議を醸す不正な実験でもまったく説明されていました。研究者は、R/ShangeMyViewフォーラムで意見を動揺させるために、削り取られた個人データと敏感なペルソナになりすましたRedditにAIボットを展開しました。欧州連合サイバーセキュリティ局(ENISA)によると、この事件は深刻な倫理的侵害として広く非難されています。
この能力はすでに武器化されています。その 2024脅威ランドスケープレポート生成AIは、非常に説得力のあるキャンペーンを作成するために積極的に使用されていることを強調しています。これらのイベントは、2023年にOpenai CEOのSam Altmanが発行した警告を確認しています。AIは一般情報のかなり前に超人的説得能力を達成できることを確認しています。 2025年5月、サム・アルトマンは、厳しい規則に注意し、「ライト・タッチ」フレームワークを促すことにより、主要な政策シフトを合図しました。これは、2023年の上院審理中に連邦免許機関を求める彼の呼びかけとはまったく対照的です。 2024年6月上旬、OpenaiとGoogle Deepmindの13人の現在および元従業員のグループが、より強力な内部告発者保護を求める手紙を発表しました。 「これらの企業の効果的な政府の監視がない限り、現在および元従業員は、一般に公衆に説明責任を持たせることができる数少ない人々の中にいます」と手紙は述べています。ニューヨークタイムズ、オープンアイのスポークスマンであるリンジーは、「最も有能で安全なA.I.システムを提供する実績を誇りに思っており、リスクに対処するための科学的アプローチを信じています」と答えました。
この手紙の説明責任への公開呼びかけは、2024年5月に著名な安全チームの共同リードの辞任に続き、現在は競合他社の人類で働いています。 4月、Openaiは内部ガイドラインを更新して、競合他社の行動に基づいて安全要件を緩和できるようにする条項を含めました。その後、O3モデルの安全性テストは数か月から1週間未満で圧縮されていたという報告があります。これは、「無謀」と説明されているプロセス1の安全テスターです。自己保存や超人説得などの危険なAI能力の文書化された出現は、現場の大手企業が積極的な規制から後退し、その安全文化に関する内部警告に取り組んでいるように見えるように思われます。ますます強力で予測不可能なシステムのリスクをナビゲートします。