Openaiは、同社のO3およびO4-MINI推論モデルを使用するより経済的な方法を探している開発者を対象とした個別のAPIサービス層であるFlex Processingを導入しました。 2025年4月17日に公式に発表され、現在ベータ版で利用可能なこのオプションは、標準のAPIレートと比較してトークンあたりのコストを大幅に削減し、特定のアプリケーションで高度なAIがよりアクセスしやすくなりますが、この新しい層は、即時の結果が主な懸念ではないタスクをターゲットにします。 フレックス処理ドキュメントは、理想的な候補者としての「モデル評価、データ濃縮、非同期ワークロード」などのユースケースを指し示しています。これは、コストの節約が速度の必要性を上回る優先順位または非生産の仕事のソリューションとして提示されています。 O3モデルの場合、Flexを使用する開発者は、100万ドルあたり5ドル、100万ドルあたり20ドルの出力トークンを支払い、それぞれ10ドルと40ドルの標準レートから急激に減少します。同様の50%の削減が見られ、価格は100万ドルあたり0.55ドルで、通常の1.10ドルと4.40ドルと比較して、Flexの下で100万ドルあたり2.20ドルです。この価格構造は、OpenAIのバッチAPIに既に確立されたレートとFlexを整列させ、非現実的な時間処理タスクの予測可能なコスト構造を提供します。フレックス処理はより低い優先度の計算キューで動作します。つまり、API応答は標準層を介して行われた要求よりも本質的に時間がかかります。
開発者は、アプリケーションロジックの応答時間が遅いことも予測する必要があります。 Openaiの公式SDKでのデフォルトの10分のタイムアウトは不十分である可能性があり、同社はFlexリクエストのためにこのタイムアウトをおそらく15分に増やすことを提案しています。このサービスをアクティブにするには、開発者はAPI呼び出し内の「service_tier=”flex”`パラメーターを指定する必要があります。
コンテキスト:O3/o4-miniモデルと市場ダイナミクス
強化された推論と「初期のエージェント行動」と呼ばれるもので導入されました。
これは、サブスクライバーのインタラクティブなChatGPT環境内で、「使用するツールを独立して、ユーザープロンプトなしでいつ使用せずに、Webブラウジングやコード実行などの機能を自律的に選択できることを意味します。 Flex Processingは、コストが主要なドライバーであるバックエンドタスクに適したAPIを介してこれらのモデルのパワーを利用するための別のより手頃なパスを提供します。開発者にコストとパフォーマンスをより詳細に制御できるようにするために、Openaiの動きになりましょう。この打ち上げは、O3およびO4-MINIモデルを活用できるオープンソースCodex CLIツールなど、OpenAIからの最近の開発者中心のリリースにも続きます。 O4-MINIは複数の層(1-5)で広く利用可能ですが、より強力なO3モデルでは一般に、開発者はより高い支出層(4または5)にいる必要があります。
しかし、Openaiは、概要の概要やストリーミングサポートのような関連能力を含むO3へのAPIアクセスを得ることができます。これは、責任あるプラットフォームの使用を保証することを目的としたOpenaiの述べられたポリシーと一致しています。