OpenAi正在提高聲音AI功能,並於週四在全球範圍內正式啟動其實時API。該版本的核心是GPT-Realtime,這是一種新的旗艦語音到語音模型,有望以低20%的成本進行自然,表現力的對話。
增強開發人員建立適合生產的語音代理商,OpenAI還通過重要的新功能升級了API。這些包括對圖像輸入的支持,通過SIP進行電話集成以及使用模型上下文協議(MCP)的簡化數據連接。
此舉為開發人員提供了更可靠和有能力的工具,將OpenAI定位於越來越多的Mistral,Anthropic和sunthopic,Anthropic和Xiaomi等競爭領域,以定義Voice Interaction的未來。 src=”https://winbuzzer.com/wp-content/uploads/2025/08/OpenAI-Realtime-API-Voice.jpg”>
Under the Hood: A More Intelligent and Expressive Voice Model
The new gpt-realtime model marks a significant leap in performance. Openai聲稱這是它的最先進的,最先進的,生產的語音模型,在以下複雜的指導中取得了重大改進,可以進行以下複雜的指導,具有精確的通話工具,並產生更自然的自然和表達方式。它在大型替補音頻評估中得分為82.8%,這比上一個型號的65.6%的重大躍升。這使其可以更好地解釋非語言提示,例如笑聲,中間句子中的開關語言,並準確地處理字母數字序列。
指令遵循指令-對可靠代理的關鍵功能也得到了增強。該模型將其在多琴音頻基準測試中的得分從20.6%提高到30.5%,從而使其更可靠地遵守特定的開發人員提示,例如在支持呼叫上逐字閱讀法律免責聲明。
[嵌入式內容]
在現實世界中必須有效地使用外部工具,在現實世界中有用。在這裡,GPT-RealTime在復雜Funcbench基准上的功能呼叫精度從49.7%上升到66.5%。這確保了模型以正確的論點的方式稱呼正確的功能。
除了原始智能之外,該模型經過訓練,可以通過更具人為的語調,情感和節奏來產生更高質量的語音。它可以遵循細粒度的說明,例如“快速,專業地說話”或“以法國口音說話”,以創建更量身定制的體驗。
展示這些收益,該公司發行了兩個新的聲音,Cedar和Marin在API中獨家提供,並在自然而然地挑戰了
增壓開發人員:用於生產準備就緒代理的API升級
除了新模型之外,實時API本身現在是生產級。它已經從2024年10月開始的公共Beta搬出了公共Beta,並帶來了一套為現實世界應用設計的強大新功能。 OpenAI指出,在Beta期間,來自數千名開發人員的反饋有助於塑造這些準備就緒的改進。
API的體系結構,該體系結構直接通過單個模型來處理音頻,旨在減少延遲,並保留與傳統管道相比,與傳統管道相比,與傳統的多個模型相比,多個模型to toeper-tosex tosect tosect tosect tosect to toeply toextext to toext tosex toext to tosex tosext for totex toext和文本式的specters intept specters in Mote squort in Met expertions prection。此開放標準簡化了AI模型如何連接到外部數據。開發人員現在可以將遠程MCP服務器的URL傳遞到會話配置中, ,使API可以自動處理工具呼叫,而無需進行手動集成。
API現在還支持圖像輸入,啟用代理可以分析和討論用戶所看到的內容的多模式對話。該系統將圖像視為添加到聊天中的快照,而不是現場視頻流,從而確保開發人員保留對模型所看到的內容的控制。這解鎖了用例,例如要求代理描述照片或從屏幕截圖中讀取文本。
此外,新的會話啟動協議(SIP)支持允許與公共電話網絡,PBX系統和其他企業電話端點進行直接集成,並使呼叫中心中的語音代理更容易在呼叫中心和其他商業環境中部署好方面的好處。獲得儘早訪問的Zillow正在使用API為其下一代家庭搜索提供動力。 The company’s AI head, Josh Weisberg, reported that “it exhibits stronger reasoning and more natural speech… allowing it to handle complex, multi-step requests like narrowing listings by lifestyle needs…,”highlighting its potential for complex customer interactions.
An Open Challenge in a Crowded Voice AI Arena
OpenAI’s launch lands in a fiercely competitive market where競爭對手正在積極進步自己的語音技術。 5月,人類通過為其Claude AI推出語音模式而獲得了重大條件。最近,梅塔(Meta)在7月以4500萬美元的價格收購了Voice Startup Playai,以加強其AI助手和智能眼鏡。
開源社區也在加大了巨大的挑戰。法國初創公司Mistral於7月發布了其Voxtral模型,旨在削弱具有寬鬆的Apache 2.0許可證的專有系統,並承諾以不到競爭API的價格的一半的價格。
本月,小米跟隨類似的Playbook,啟動了MidashEnsAshenglm-7b模型。它使用基於創新的字幕培訓方法,在商業友好的許可下對語音,音樂和環境聲音有更全面的了解。
即使是已建立的科技巨頭,也沒有靜止不動。 4月,亞馬遜推出了其實時表達的Nova Sonic模型,該模型已集成到Alexa+助手中。它的設備負責人Panos Panay先前承諾:“當您使用Alexa+時,您將感覺到它”,這表明推動了更多情感共鳴的互動。
創新也擴展到了專業的初創公司。穩定性AI正在處理設備處理,而芝麻AI等其他人則在推動現實主義的界限創造“令人愉悅的人類聽起來”的助手,這些助手都包含了諸如暫停和斯托斯(Studters)之類的自然缺陷。
。
,通過使其最先進的語音技術更加強大,有力,可負擔得起的Openai使其具有戰略性的領導才能使其最先進的語音技術變得更加強大,可實現其戰略性。該公司敢打賭,高級開發人員的體驗將是這場不斷升級的平台戰爭的決定因素。