openaiは、a 財務時間公開最新のAIモデルの評価期間を短縮しました。
会社の運営に精通している8つの情報源を引用して、レポートは、以前に数か月に及ぶテストタイムラインが単なる日に圧縮されていると述べています。この加速度は、Openaiが推論に焦点を当てたO3を含む新しいモデルの差し迫った打ち上げに備え、重要な安全性評価のために1週間未満のサードパーティと内部テスターを残すために発生します。ただし、速度は、モデルの評価を担当する人々の間でアラームを上げています。 「[テクノロジー]がそれほど重要ではなかったとき、より徹底的な安全性テストがありました」と、今後のO3モデルを現在評価している1人の個人はFinancial Timesに語りました。 「武器」は「無謀な」と付け加えました。状況:「彼らは公共の安全をまったく優先していないだけです。」元Openaiの研究者であるDaniel Kokotajloは、このラッシュを可能にする環境を強調した。 CEOのSam Altmanは4月4日に「計画の変更」を確認し、会社は「おそらく数週間で」O3およびO4-Mini推論モデルをリリースすると述べ、非常に期待されているGPT-5の打ち上げを「数か月」と押し戻しました。 Altmanは、この決定は「推論モデルとチャット/完了モデルを切り離す」ことであると説明し、「O3からのパフォーマンスに興奮している」と付け加えました。 `o4-mini`、およびchatgpt Webアップデートで「O4-Mini-High」。同時に、レポートは、GPT-4.1という暫定的に名前が付けられた更新されたマルチモーダルモデルもリリースに近づいていることを示唆しています。
テスト慣行に関する長引く質問
は、圧縮スケジュールを超えて、Openaiのテストの深さに関する特定の懸念が表面化されています。批評家は、微調整を通じて生物時代の創造を支援するなど、誤用の可能性を評価するという会社のコミットメントに疑問を呈しています。このプロセスでは、特殊なデータセット(ウイルス学など)でモデルをトレーニングして危険な機能を開発するかどうかを確認します。
によると、以前のOpenai Safety Researcher Steven Adlerおよびその他のFTによると、この詳細なテストは、主にGPT-4oなどの古いモデルを使用して、O1またはO3-Miniのような公開されたモデルを使用していません。 Adlerによると、その見解が詳細になっています