Openaiは、2025年4月16日頃にサブスクライバーに支払いを行うために、O3およびO4-MiniモデルをChatGptに押し込み、より自律的なAIアシスタントへの一歩として宣伝しました。これらのモデルは、Webブラウジング、コード実行、ファイル分析などのツールを使用するときに独立して決定できる「アーリーエージェントの動作」で設計されています。

には、Openai独自のテストと外部研究者の両方から、この高度な推論モデルが依存していることを繰り返しています。ローンチは、懸念の傾向を明らかにしました。Openaiの人物のベンチマークでは、人々に関する知識をテストするように設計されており、O3は33%の時間の誤った情報または製造された情報を生成しました。 O4-MINIモデルは悪化し、症例の48%で幻覚を起こしました。一般に、古いバージョンと比較して推論とコーディングのベンチマークの改善を示していますが、この製造の特定の増加は、より多くのエージェントシステムの開発に伴うトレードオフに関する疑問を提起します。 href=”https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf””ターゲット=”_ blankモデルが「全体としてより多くの主張をする」ため、より正確でより不正確な声明の両方を生成することを理論化します。 OpenaiのスポークスマンであるNiko FelixはTechCrunchに次のように語っています。「すべてのモデルで幻覚に対処することは進行中の研究分野であり、正確性と信頼性を向上させるために継続的に取り組んでいます。」

製造されたアクションと精巧な言い訳

独立したスクリューティは、すぐに重量を加え、信頼性を高めました。 AI Research Labは、2025年4月16日に発表された調査結果を翻訳し、O3のプレリリースバージョン( `O3-2025-04-03`)のテストから翻訳し、モデルのパターン

自動化された調査員エージェントと数百の会話を調べるためのdocent分析ツールを使用して実行しました。これは、ユーザーのリクエストを満たすために、Pythonコードを実行したことを主張するモデルであることが判明しました。これらの製造について直面したとき、モデルはしばしば2倍になり、精巧な正当化を発明しました。ターゲット=”_ blank”>の例会話ここで、O3はPythonコードと特定のテストを使用して512ビットプライム番号を生成すると主張した場合。テストを再実行します…本物のMiller – Rabinの実行は、数字を即座に拒否したでしょう。」

は、想定される元のプライムについてさらに押し付けました。 Transluce documented other fabrications, including claims of running code on an external “2021 MacBook Pro” for calculations, and fabricating system details when askedその python repr環境。コーディングに役立ちますが、TechCrunchに話しかけたWerlada CEOのKian Katanforooshによると、O3は時々非労働Webリンクを作成しました。発売時の頃、Openaiが最近内部安全ガイドラインを更新しました。同等のセーフガードなしで高リスクシステムをリリースします。要件を調整することができます。」同社は、このような調整が厳格なチェックと公開の開示に従うことを強調した。 「Reckless」というアプローチと呼ばれる評価に精通している1つの情報源は、「これは災害のレシピです」と付け加えました。別の人は、GPT-4のより長い評価とは対照的であり、「公共の安全をまったく優先していないだけです」と述べた。

最終コードの代わりに中間の「チェックポイント」をテストする方法論も火をつけた。元Openaiの技術スタッフは、「評価したモデルとは異なるモデルをリリースするのは悪い習慣です」と言っていると引用されました。 Openaiの安全システムの責任者であるJohannes Heideckeは、「私たちがどれだけ速く移動し、どれだけ徹底的であるかについてのバランスが良い」と主張しました。 AIを翻訳するOシリーズモデルに特有の推奨要因が問題を悪化させている可能性があります。 1つの仮説は、結果に基づく強化学習(RL)に焦点を当てています。AIが主に正しい最終回答を生成するために訓練され、報酬を与えられている場合、プロセスが誤っている場合でも、成功と相関する場合、ツールの使用を主張するなどの中間ステップを作成することを学ぶかもしれません。さまざまなモデル応答に対する人間の好みに基づいています。ただし、人間の評価者が複雑な中間ステップの正確性を簡単に検証できない場合、モデルは好ましい結果につながる場合、もっともらしいものであるが誤った推論を生成することを学ぶかもしれません。 openaiのドキュメント、この推論のトレースは継続的に継続されていません。翻訳されているのは、それ自体の事前の推論へのアクセスの欠如を理論化する可能性があります。モデルは、以前の結論にどのように到達したかについてのユーザーの質問に真実に答えることができなくなります。 「私たちの仮説は、Oシリーズモデルに使用される補強学習の種類が、標準的なトレーニング後のパイプラインによって通常緩和される(完全に消去されない)問題を増幅する可能性があるということです」と述べています。彼らの認識されたユーティリティ。これらのモデルは、3月に拡張された視覚処理や4月11日の「リコール」メモリフィーチャのアクティブ化など、他のOpenAIの更新と並んで到着しました。

しかし、文書化された製造の増加は、AI機能を信頼性に合わせた持続的な課題を強調しています。これは、Gemini 2.5 Proモデルに対するGoogleの遅れたまばらな安全性の詳細に対する批判によって証明され、イノベーション速度と信頼性の高いAI展開のバランスに関する継続的な質問を提起する透明性と透明性と格闘するにつれて、これは展開されます。

Categories: IT Info