Openaiは音声AI機能を強化し、木曜日に世界中の開発者向けにリアルタイムAPIを正式に立ち上げました。リリースの中心はGPT-RealTimeです。これは、20%低コストでより自然で表現力豊かな会話を約束する新しいフラッグシップスピーチからスピーチモデルです。これらには、モデルコンテキストプロトコル(MCP)を使用した画像入力、SIPによる電話の統合、および合理化されたデータ接続のサポートが含まれます。 src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>

フード:よりインテリジェントで表現力のある音声モデル

Openaiは、それは最も先進的な生産対応の音声モデルであると主張しています。前のモデルの65.6%からの大きなジャンプである、推論のために、Big Benchオーディオ評価で82.8%を獲得しました。これにより、笑い声、言語の中央文字を切り替え、英数字のシーケンスを正確に処理するなど、非言語的手がかりをよりよく解釈できます。このモデルは、マルチチャレンジオーディオベンチマークでのスコアを20.6%から30.5%に改善し、サポートコールで法的免責事項を読み取るなど、特定の開発者プロンプトにより確実に接着できるようになりました。ここでは、complexFuncbenchベンチマークのGPT-Realtimeの関数をコールする精度は、49.7%から66.5%に増加しました。これにより、モデルは正しい引数をより一貫して適切な関数を呼び出すことが保証されます。

生の知能を超えて、モデルはより人間のようなイントネーション、感情、ペースで高品質の音声を生成するように訓練されました。 「迅速かつ職業的に話す」や「フランスのアクセントで共感的に話す」などのきめの細かい指示に従うことができます。よりテーラードエクスペリエンスを作成します。 チャレンジ。 Openaiの更新は、より魅力的で少ないロボットユーザーエクスペリエンスを作成するための直接的な試みです。

スーパーチャージャーging開発者:生産対応エージェントのAPIアップグレード

新しいモデルを超えて、リアルタイムAPI自体は生産グレードになりました。 2024年10月に始まったパブリックベータ版から移動し、実際のアプリケーション向けに設計された強力な新しい機能スイートを提供しました。 Openaiは、ベータ版中の数千人の開発者からのフィードバックがこれらの生産対応の改善を形作るのに役立つと述べています。

単一のモデルを通じてオーディオを直接処理するAPIのアーキテクチャは、スピーチのニュアンスを維持するように設計されています。 (MCP)サーバー。このオープン標準は、AIモデルが外部データに接続する方法を簡素化します。開発者は今、リモートMCPサーバーのURLをセッション構成に渡し、APIがマニュアル統合を必要とせずにツール呼び出しを自動的に処理できるようにします。ユーザーデータとプライバシーを優先しながら有能なビジネスエージェントを構築するためのステップ。

APIは、画像入力もサポートし、エージェントがユーザーが見ているものを分析および議論できるマルチモーダル会話を可能にします。システムは、ライブビデオストリームではなく、チャットに追加されたスナップショットのように画像を扱い、開発者がモデルが見ているものを制御し続けるようにします。これにより、エージェントに写真を説明したり、スクリーンショットからテキストを読んだりするように依頼するなどのユースケースのロックが解除されます。

さらに、新しいセッション開始プロトコル(SIP)サポートにより、公共電話ネットワーク、PBXシステム、およびその他のエンタープライズテレフォニーエンドポイントとの直接統合が可能になり、コールセンターでの音声アジャントの展開が容易になりました。早期アクセスを獲得したZillowは、APIを使用して次世代のホーム検索を強化しています。同社のAIヘッドであるジョシュ・ワイズバーグは、「それはより強い推論とより自然なスピーチを示しています…ライフスタイルのニーズによるリストの絞り込みのような複雑でマルチステップの要求を処理することができます…」、複雑な顧客のやり取りの可能性を強調しています。ライバルは、独自の音声技術を積極的に進めています。 5月、人類は、そのクロードAIの音声モードを展開することにより、重要なエントリを作成しました。さらに最近では、メタはAIアシスタントとスマートグラスを強化するために、7月に報告された4500万ドルで音声スタートアップPlayaiを取得することにより、タレントウォーをエスカレートしました。フランスのスタートアップミストラルは、7月にVoxtralモデルをリリースし、寛容なApache 2.0ライセンスと競合するAPIの半分未満の価格で最先端のパフォーマンスの約束を備えていることを目指しています。革新的なキャプションベースのトレーニング方法を使用して、商業に優しいライセンスの下で、スピーチ、音楽、周囲の音をより全体的に理解するために使用します。 4月、Amazonはリアルタイムの表現力豊かなNova Sonicモデルを立ち上げました。これは、Alexa+アシスタントに統合されています。そのデバイスのリードであるPanos Panayは、以前に「Alexa+を使用するとき、あなたはそれを感じるだろう」と約束しました。安定性AIはデバイス上の処理に取り組んでいますが、セサミAIのような他の人は、リアリズムの境界を押し広げて、一時停止やスタッターなどの自然な欠陥を採用する「不気味な人間の響き」アシスタントを作成しています。同社は、優れた開発者エクスペリエンスがこのエスカレートするプラットフォーム戦争の決定要因になると賭けています。