生のサイズよりも耐久性に重点を置いた Google の Gemini 3 Pro の発売に対抗して、OpenAI は水曜日に GPT-5.1-Codex-Max をリリースしました。
「圧縮」を導入した新しいモデルは、メモリを圧縮し、自律的なコーディング セッションを 24 時間以上維持できる技術を採用しています。 OpenAI は、一般的に長期にわたるタスクを停滞させる「メモリの壁」を打ち破り、このモデルはトークンの使用量を 30% 削減し、SWE ベンチ検証済みベンチマークで 77.9% の最高スコアを確保すると主張しています。
Codex ユーザーに直ちに展開されるこのアップデートは、効率性と Windows ネイティブ サポートへの戦略的移行を示しています。これは、最初の GPT-5 のデビューが不安定だった後、プラットフォームの安定化を目指した GPT-5.1 リリースの直後に続きました。
エンデュランス エンジン: コンパクションと 24 時間の自律性
内部では、このアーキテクチャは、コンテキスト ウィンドウを単に拡張するという強引な方法とは根本的に異なる、コンテキスト管理への新しいアプローチに依存しています。
Google などの競合他社は、コードベース全体をアクティブ メモリに保持するために 100 万トークンの容量を推進していますが、OpenAI は「コンパクション」を導入しています。
機能モデルの注意力を維持するための高度にインテリジェントなガベージ コレクターと同様に、このメカニズムは、コンテキスト ウィンドウが無関係な会話の破片で埋まるのを許容するのではなく、自らの履歴を積極的に要約して整理します。
重大な状態変化と決定ロジックのみを保持することで、システムは元の目的のスレッドを失うことなく、複数のコンテキスト ウィンドウにわたって動作することができます。
画期的な進歩について、OpenAI エンジニアリング チームは、「GPT‑5.1-Codex-Max は次のように構築されています」と述べました。これは、圧縮と呼ばれるプロセスを通じて複数のコンテキスト ウィンドウにわたって動作するようにネイティブにトレーニングされた最初のモデルです。」と、以前の反復が幻覚やループを起こした場合でも一貫性を維持する能力を強調しています。
このアーキテクチャの変更により、「怠惰なエージェント」問題に直接対処し、会話の長さが増加してもモデルのパフォーマンスが低下するのを防ぎます。
同社が引用した内部評価では、スタミナが劇的に向上していることがわかりました。 GPT‑5.1-Codex-Max は 24 時間以上にわたってタスクに取り組み、実装を繰り返し実行し、テストの失敗を修正し、最終的には成功した結果をもたらします。」
エンタープライズ開発者は、金曜日の夜に複雑なリファクタリング ジョブを割り当て、エージェントが週末を通して作業を継続し、ビルドが成功するまでテストを繰り返し実行し、エラーを修正することを期待できます。
この耐久性により効率が向上します。長いセッションの完全な非圧縮履歴を常に再処理するわけではないということは、モデルが消費するリソースが大幅に少なくなることを意味します。
SWE ベンチ検証済みベンチマークでは、同社は「GPT-5.1-Codex-Max は、『中程度』の推論努力をした場合、GPT-5.1-Codex よりも優れたパフォーマンスを達成するが、使用する思考トークンは 30% 少なくなります。」
大量の API ユーザーには、トークン消費量の 30% 削減は、運用コストの削減に直接つながります。これは、AI が実験的なプロトタイピングから実稼働ワークフローに移行する際に重要な要素です。
速度の向上も同様に測定可能です。実際のコーディング タスクは、以前の GPT-5.1-Codex モデルよりも 27% ~ 42% 高速に実行されるようになりました。
推論モデルに関する一般的な苦情に対処するため、この高速化により、コードを作成する前に必要な「思考」時間が短縮されます。推論トークンを最適化することで、OpenAI は、複雑なロジックに必要な思考の深さと、インタラクティブな開発に必要な応答性のバランスを取ることができます。
パフォーマンス メトリクスは、これらのアーキテクチャの変更を検証します。 SWE-bench Verified で 77.9% のスコアを獲得したこのモデルは、前モデルの 73.7% を上回り、新たな内部記録を樹立しました。
個々のコントリビューターのタスクをシミュレートする SWE-Lancer IC SWE ベンチマークでは、79.9% に達し、若手エンジニアに割り当てられたルーチン チケットの大部分を処理できることを示唆しています。
さらに、ターミナルベンチでは 58.1% のスコアを記録しました。 2.0 は、ターミナル環境における構文エラーの容赦のない性質により、LLM にとって悪名高い困難な領域であるコマンドライン インターフェイスをナビゲートする堅牢な機能を示しています。
エコシステム戦争: Windows フォーカスと Gemini の対立
AI 分野においてタイミングが偶然に一致することはほとんどありません。 Google が Gemini 3 Pro を発表してからちょうど 24 時間後にリリースされたこのリリースでは、直接の直接比較が行われます。
ベンチマークの戦いは今や非常に僅差です。 SWE ベンチ検証での Codex-Max の 77.9% は、Gemini 3 Pro で報告された 76.2% という数字を僅差で上回り、作成から 1 日も経たないうちにコーディングの王冠に対する Google の主張を効果的に無効化しました。
ベンチマークを超えて、OpenAI は業界の Unix 中心の伝統を打ち破り、エンタープライズ市場向けに計算された戦略を立てています。
OpenAI は「これは最初のモデルでもある」と指摘しました。 Codex CLI でより優れたコラボレーターとなるトレーニング タスクを使用して、Windows 環境で効果的に動作するようにトレーニングしてきました。」
これまで、AI コーディング モデルは主に Linux および macOS リポジトリでトレーニングされてきたため、PowerShell スクリプトの生成時や Windows ファイル システムの操作時に摩擦が生じていました。 Windows 向けの明示的なトレーニングにより、OpenAI は主要パートナーである Microsoft の大規模な企業インストール ベースとより緊密に連携します。
価格は依然としてこの対立で最も議論の分かれるところです。 Google は、100 万入力トークンあたり約 0.10 ドルという積極的な価格戦略で Gemini 3 Pro を発売しました。
対照的に、GPT-5.1 のベースラインは、100 万トークンあたり約 1.25 ドルと大幅に高くなっています。 OpenAI は、トークン効率のおかげで「Max」モデルの方が実行コストが安いと主張していますが、実際の単位コストの差は 10 倍以上です。
このようなギャップにより、OpenAI には、その「圧縮」機能と推論機能がトークンあたりの優れたパフォーマンスだけでなく、1 ドルあたりの優れた価値を提供することを証明するという計り知れないプレッシャーがかかっています。
OpenAI エコシステム内のユーザーはすぐに利用できるようになります。 Plus、Pro、Enterprise サブスクライバー向けの Codex CLI、IDE 拡張機能、およびクラウド環境で稼働するこのモデルは、展開の準備ができています。
ただし、API アクセスは現在「近日公開」としてリストされています。この遅延により、開発者はカスタム ツールやサードパーティ アプリケーションを構築する際に一時的な障壁が生じ、当面は OpenAI のファーストパーティ インターフェイス内にとどまらざるを得なくなります。
これらのツールをめぐる物語を変えることも優先事項です。 JetBrains の Denis Shiryaev 氏は、新しいモデルを「真にエージェント的で、これまでテストした中で最も自然に自律したモデル」と呼び、スニペットを提案する「副操縦士」から、ワークフローを管理する「エージェント」への移行を反映しています。
重要なのは、副操縦士は入力を速くするのに役立ちます。エージェントは、入力を完全にやめることを許可します。
安全の上限: 生物学的リスクとデータ防御
自律性の向上は、リスクの増加をもたらします。モデルとともにリリースされた システム カード は、安全性分類の大幅な拡大を明らかにしています。
コーディングに焦点を当てたリリースで初めて、安全性諮問グループは「GPT-5.1-Codex-Max を生物学的および化学的領域で高リスクとして扱い、対応する基準を適用し続ける」ことを確認しました。
GPT-5.1-Codex-Max システム カード
複雑なウェット ラボ プロトコルを計画およびトラブルシューティングするモデルの機能に由来するこの分類は、新たな危険性を浮き彫りにしています。 Python スクリプトを自律的にデバッグできるエージェントは、理論的には、適切な文献と機器にアクセスできれば、病原体を合成するためのプロトコルをデバッグすることもできます。
サイバーセキュリティは、依然として厳しい監視の対象となっているもう 1 つの分野です。安全アドバイザリー グループは、「GPT-5.1-Codex-Max は、これまでに導入した中で最もサイバー機能が高いモデルです…[しかし] サイバーセキュリティに関しては高い能力には達していません。」
導入の停止を引き起こす閾値をまだ超えていませんが、脆弱性の特定とエクスプロイト スクリプトの作成におけるモデルの習熟度は向上しています。
これを軽減するために、OpenAI は厳格なサンドボックス化を実装しました。デフォルト。明示的に許可されない限り、ネットワーク アクセスは無効になり、ファイルの書き込み権限はアクティブなワークスペースにロックされ、エージェントがシステム ディレクトリに侵入するのを防ぎます。
データの破壊は、自律型コーディング エージェントに特有のリスクです。ターミナル アクセスにより、理論的には、モデルが「rm-rf/」のようなコマンドを実行し、ユーザーのマシンをワイプできる可能性があります。これに対抗して、OpenAI は強化学習フェーズで「ユーザー モデル」を含む新しいトレーニング手法を採用しました。
AI の目標と矛盾する編集を行ったユーザーをシミュレートするこの方法は、特にユーザーの作業を上書きするのではなく保存するという点でモデルに報酬を与え、AI に人間の貢献を尊重し、破壊的なコマンドを避けるように効果的に教えました。
悪意のある命令がコード コメントや外部ドキュメント内に隠蔽されるプロンプト インジェクション攻撃も、特に注目を集めました。新しい合成データセットは、コーディング コンテキスト内でこれらの攻撃を認識し無視するようにモデルをトレーニングするために生成されました。
これらの技術的保護策にもかかわらず、同社は人間による監視は交渉の余地のないものであると主張しています。準備フレームワークでは、エージェントは自律的にタスクを実行できますが、最終的な出力は人間のエンジニアがレビューする必要があり、完全な置き換えではなく「仮想チームメイト」のダイナミックさを強化する必要があります。