Openaiの新しいモデルであるO3およびO4-Miniは、ChatGptが言わずにできることの急激なシフトを示しています。初めて、システムはプロンプトだけに応答するだけでなく、決定、計画、および行動することができます。これらのモデルは、使用する内部ツール(ブラウジング、ファイルの読み取り、コード実行、画像生成など)を選択し、それらのアクションを個別に開始できます。 Openaiは、これを「初期のエージェント行動」への最初のステップとして説明しています。

4月中旬の時点で、両方のモデルはChATGPT Plus、チーム、およびエンタープライズユーザーに対してアクティブです。 O1やO3-MINIなどの以前のモデルを交換しており、ツールにアクセスできるユーザーが利用できます。同社は、これらのモデルが使用するツールを独立して決定できるようになったと述べています。

この自律性により、ChatGPTは意図を理解し、イニシアチブを取るアシスタントのように動作することができます。たとえば、ユーザーは複雑なファイルをアップロードして、単に「重要な問題の要約」を求めることができます。モデルは、ファイルツール、コードインタープリター、またはブラウザを使用するかどうかを把握し、それらのステップ自体を実行します。 src=”data:image/svg+xml; nitro-empty-id=mtcxotoxnjk2-1; base64、phn2zyb2awv3qm94psiwidagmtaynca5md qiihdpzhropsixmdi0iibozwlnahq9ijkwncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> [組み込みコンテンツ]

推論、メモリ、視覚知能

O3モデルは、2024年12月に最初にプレビューされ、後に4月上旬にOpenaiの戦略が変化した後、GPT-5よりも優先順位を付けました。 OpenAIは4月上旬に戦略をシフトし、O3機能をGPT-5に融合することを最初に計画した後、推論と完了モデルラインを分離しました。

テキストとコードに加えて、新しいモデルは画像を処理および推論することができます。ズーム、回転、解釈などの機能をサポートしています。これは、2025年3月にChatGPTに開始と画像編集を追加するGPT-4Oアップデートの上に構築された機能です。 4月11日、Openaiは、モデルが音声、テキスト、画像を越えて事前の会話から事実、指示、または好みを参照できる「リコール」機能をアクティブにしました。このシステムは、保存された記憶とチャット履歴への暗黙の参照の両方をサポートします。

Altmanはアップグレードを「驚くほど素晴らしい機能と呼びます。それは私たちが興奮していることを指します:あなたの人生であなたを知り、パーソナライズされるAIシステム」を指します。たとえば、ユーザーはCHATGPTにいくつかのPDFを介した研究テーマを追跡するように依頼することができます。モデルは、以前の概要を思い出し、関連する洞察を自動的に縫うことができます。さまざまなドメインのO4-miniモデルは、互いに比較的強みと以前のモデルを強調しています。

推論能力の評価では、新しいモデルは大幅な利益を示しています。 AIME 2024や2025(ツールの支援なしでテストされた)などの競争数学評価を要求するために、O4-Miniは最高の精度を達成し、O3をリードしました。どちらのモデルも、以前のO1およびO3-MINIバージョンを大幅に上回っていました。幅広い専門家レベルの質問(「人類の最後の試験」)に取り組むとき、Pythonとブラウジングツールを活用したO3は、特殊な深い研究構成に次いで強力な結果をもたらしました。また、ツールを使用しているO4-MINIモデルは、そのツールのないバージョンと古いモデルよりも明確な利点を示しています。 CodeForcesコンペティションコーディングタスクでは、O4-MINI(ターミナルツールとペアになった場合)が最高の速度評価を確保し、その後、同じツールを使用してO3が密接に続きました。これらのスコアは、Aiderによって評価されたポリグロットコード編集のO3-MINIおよびO1と比較して、大きな進歩を表しています。O3-HIGHバリアントは、全体的な精度が最も高いことを示しました。 O4-mini-highはO1-highおよびO3-mini-highよりも優れたパフォーマンスを発揮しましたが、この特定のテストでO3-highを引きずりました。 SWEベンチの検証済みソフトウェアエンジニアリングタスクでは、O3はO4-MINIよりもわずかなリードを示しましたが、どちらもO1およびO3-MINIよりも明らかに優れていました。 SWE-Lancerフリーランスタスクシミュレーションでは顕著な例外が発生しました。古いO1-HIGHモデルは、新しいO3-HIGH、O4-MINI-HIGH、O3-MINI-HIGHモデルよりも高いシミュレーション収益を生成しました。 src=”data:image/svg+xml; nitro-empty-id=mtczoto5njq=-1; base64、phn2zyb2 awv3qm94psiwidagnzu1iduw OSIGD2LKDGG9IJC1NSIGAGVPZ2H0PSI1MDKIIHHTBG5ZPSJODHRWOI8VD3D3LNCZLM9YZY8YMDAWL3N2ZYI+PC9ZDMC+”>

エージェントスキル:次の指示、ツールの使用、および関数呼び出し

新しいモデルのエージェント機能の強化は、特定のテストに反映されました。次のマルチターン命令のスケールマルチチャレンジでは、O3はO1、O4-MINI、およびO3-MINIに先立ち、トップスコアを達成しました。エージェントWebブラウジングテスト(BrowseComp)では、Pythonとブラウジングを使用してO3が高精度を表示し、O1の機能を大幅に上回ります。 src=”data:image/svg+xml; nitro-empty-id=mtc1mto4mtq=-1; base64、phn2zyb2awv3qm94psiwidagnjm1idu1 niigd2lkdgg9ijyznsigagvpz2h0psi1ntyiihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>

ツールを備えたO4-MINIモデルもブラウジングの能力を示しましたが、このセットアップではO3よりも低かったです。タスクドメインによって変化するタウベンチを介して評価される関数呼び出しパフォーマンス。 O3-Highの構成は小売ドメインで優れていましたが、O1-HighはO3-HighおよびO4-Mini-Highと比較して航空会社のドメインにわずかなエッジを保持していました。それにもかかわらず、O4-mini-highは、O3-mini-highに比べて両方のドメインにわたって一般的に強力な関数呼び出し能力を示しました。 MMMU(大学レベルの視覚的問題解決)、Mathvista(視覚数学推論)、Charxiv-Reasoning(科学的図の解釈)を含むいくつかのマルチモーダルベンチマークにわたって、O3モデルはOpenaiのデータによると一貫して最高の精度スコアを達成しました。 O4-MINIモデルは、O3の後ろに密接に続いて、ほぼ同様に機能しました。 O3とO4-MINIの両方が、これらの視覚的推論機能におけるO1モデルよりも大幅な改善を示しました。 src=”data:image/svg+xml; nitro-empty-id=mtc2nzoxnjm3-1; base64、phn2zyb2awv3qm94psiwidagmtaynca5od ciihdpzhropsixmdi0iibozwlnahq9ijk4nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

効率とコストパフォーマンス

生の能力を超えて、Openaiのベンチマークデータはモデル効率の大きな進歩を示しています。 O4-MINIモデルは、AIME 2025やGPQAパス@1の異なる運用設定(低、中、高)に@1をパスして、推定推論コストが低いと、O3-MINIよりも一貫して高いパフォーマンスを提供しました。 O1と比較してO3にも同様の利点が見られました。 O3は、同じベンチマークでかなり優れた結果を達成しましたが、同等の設定の推定コストが削減されました。これは、Oシリーズの進歩には、より大きなインテリジェンスだけでなく、計算効率の改善も含まれることを示唆しています。 src=”data:image/svg+xml; nitro-empty-id=mtc3otoxmtq0-1; base64、phn2zyb2awv3qm94psiwidagmtaynca2md eiihdpzhropsixmdi0iibozwlnahq9ijywmsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

全体として、OpenAIのパフォーマンスデータは、O3が特に複雑なエージェント操作とマルチモーダルタスクで、高水マークを頻繁に設定することを示しています。同時に、O4-MINIは、O3-MINIと比較して大幅なコスト削減を提供しながら、特定の推論およびコーディングベンチマークで非常に有能で顕著なモデルであることが証明されています。両方の新しいモデルは、ほとんどのテストされた機能にわたる以前のOpenAI製品からの明確で実質的な一歩を表しています。同社は最近、ライバルが同様のセーフガードなしでリスクの高いモデルをリリースした場合、特定の安全プロトコルを緩和できるように準備枠組みを更新しました。同社は次のように書いています。「別のフロンティアAI開発者が同等のセーフガードなしでハイリスクシステムをリリースした場合、要件を調整する可能性があります。」彼は、自動化により安全評価がより速くなりました。

懸念の1つは、最終バージョンではなくモデルの中間チェックポイントをテストするためのOpenaiの選択です。元従業員は、「あなたが評価したものとは異なるモデルをリリースするのは悪い習慣です。」

更新されたフレームワークは、自律的な複製、監視の操作、長距離計画などのリスクを監視するための新しい追跡および研究カテゴリも導入しました。 DeepMindは4月上旬にグローバルなAGI安全フレームワークを提案しましたが、人類はClaudeの意思決定をより透明にするための解釈可能性ツールキットをリリースしました。ただし、両社は、公共政策のコミットメントを削除するための人道的であり、限られた執行の詳細を提供するために深い精査に直面しています。 O3およびO4-MINIモデルはより賢いだけでなく、独自の判断に基づいて行動しています。

競争により、エージェント機能が前方に向かっています

Openaiの戦略は、ライバルがAIの推論の未来を定義する競争の競争的景観に対抗します。 Microsoftは、O3-Mini-Highモデルをすでに自由なCopilotティアに統合しています。最近では、AIエージェントがデスクトップアプリやWebページと直接対話できるようにするCopilot Studioの機能を立ち上げました。これらのエージェントは、ボタンのクリックやデータの入力などのユーザーアクションをシミュレートできます。これは、APIが利用できない場合に特に役立ちます。

一方、4月14日に発売されたOpenAIのGPT-4.1モデルラインは、APIを介してのみ利用可能になりました。そのラインは、コーディング、ロングコンテキストプロンプト、および命令のフォローに最適化されていますが、自律的なツールの使用がありません。GPTモデルとOシリーズ間のOpenaiのセグメンテーション戦略を強調しています。モデルは、回答を作成するだけでなく、計画、理由、および行動方法を選択します。科学論文の解析、コードのデバッグ、画像の調整など、これらのモデルは、指示を待たずに実行する手順を決定できるようになりました。しかし、エージェントシステムも新たな懸念を提起します。彼らの推論はどの程度透明性がありますか?彼らが悪い電話をかけたり、ツールを悪用したりするとどうなりますか?これらの質問はもはや理論的ではありません。 O3とO4-MINIが何百万人ものユーザーに展開されると、実世界のパフォーマンスと説明責任がテストされようとしています。

Categories: IT Info