OpenAI ökar sina röst AI-kapaciteter och lanserar officiellt sitt API för realtid för utvecklare över hela världen på torsdag. Mittpunkten i utgivningen är GPT-realtid, en ny flaggskepps tal-till-tal-modell som lovar mer naturliga, uttrycksfulla samtal till 20% lägre kostnad.

för att stärka utvecklare som bygger produktionsklar röstagenter, har OpenAI också uppgraderat API med avgörande nya funktioner. Dessa inkluderar stöd för bildinmatningar, integration av telefonsamtal via SIP och strömlinjeformade dataförbindelser med hjälp av modellens kontextprotokoll (MCP).

Flytten ger utvecklare mer tillförlitliga och kapabla verktyg, positionering Openai mot ett växande fält som mistrala, antropiska och xiaomi i rasen för att definiera framtiden för röstinteraktion. src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>

under huven: en mer intelligent och uttrycksfull röstmodell

den nya GPT-tidsmärken Marks en signifikant i Performance. Ouenai hävdar att det är dess mest avancerad, produktionsklar röstmodell ännu , levererar stora förbättringar i att följa komplexa instruktioner, ringa verktyg med precision och producera tal som låter mer naturligt och uttrycksfullt. Det fick 82,8% på Big Bench Audio-utvärderingen för resonemang, ett stort hopp från den tidigare modellens 65,6%. Detta gör att det bättre kan tolka icke-verbala ledtrådar som skratt, byta språk mitt i meningen och exakt hantera alfanumeriska sekvenser.

instruktionsföljande, en kritisk funktion för tillförlitliga medel, har också förbättrats. Modellen förbättrade sin poäng på MultiChallenge Audio-riktmärket från 20,6% till 30,5%, vilket gör det möjligt för den att vara mer pålitligt att följa specifika utvecklare-instruktioner, till exempel att läsa en juridisk ansvarsfriskrivning måste användas. Här ökade GPT-Realtimes funktionssammaning om ComplexFuncbench-benchmark till 66,5% från 49,7%. Detta säkerställer att modellen kallar rätt funktioner med rätt argument mer konsekvent.

Utöver rå intelligens utbildades modellen för att producera högre kvalitet med mer mänsklig liknande intonation, känslor och takt. Det kan följa finkorniga instruktioner, till exempel”tala snabbt och professionellt”eller”tala empatiskt i en fransk accent”, för att skapa en mer skräddarsydd upplevelse.

för att visa upp dessa vinster släppte företaget två nya röster, cedar och marin, som är tillgängliga i API och har de mest betydelsefulla förbättringarna till naturliga sounding tal. OpenAI: s uppdatering är ett direkt försök att skapa mer engagerande och mindre robotiska användarupplevelser.

Supercharging Developers: API-uppgraderingar för produktionsklar agenter

utöver den nya modellen är RealTime API själv nu produktionsklass. Det har flyttat ut från den offentliga beta som började i oktober 2024, med sig en svit med kraftfulla nya kapaciteter utformade för verkliga applikationer. OpenAI konstaterar att feedback från tusentals utvecklare under beta hjälpte till att forma dessa produktionsklar förbättringar.

API: s arkitektur, som bearbetar ljud direkt genom en enda modell, är utformad för att minska latens och bevara nyansen i tal, en distinkt fördel över traditionella rörledningar som kedja flera modeller tillsammans för tal-till-text och text-funktionsfunktioner. servrar. Denna öppna standard förenklar hur AI-modeller ansluter till externa data. Utvecklare kan nu passera url till en fjärr-mcp-server till sessionskonfigurationen , vilket gör att API ska hantera verktyg för att behöva tejla utan att behöva manuella integrationer. Kritiskt steg för att bygga kapabla affärsagenter medan du prioriterar användardata och integritet.

API stöder nu också bildingångar, vilket möjliggör multimodala konversationer där en agent kan analysera och diskutera vad en användare ser. Systemet behandlar bilder som en ögonblicksbild som läggs till i chatten, inte en live-videoström, vilket säkerställer att utvecklare behåller kontrollen över vad modellen ser. Detta låser upp fall som att be en agent att beskriva ett foto eller läsa text från en skärmdump.

Vidare, nya sessioninitieringsprotokoll (SIP)-stöd möjliggör direkt integration med offentliga telefonnätverk, PBX-system och andra företagstelefoner, gör det lättare att distribuera röstagenter i samtal och andra affärsmiljöer. Zillow, som fick tidig åtkomst, använder API för att driva sin nästa generations hemsökning. The company’s AI head, Josh Weisberg, reported that “it exhibits stronger reasoning and more natural speech… allowing it to handle complex, multi-step requests like narrowing listings by lifestyle needs…,”highlighting its potential for complex customer interactions.

An Open Challenge in a Crowded Voice AI Arena

OpenAI’s launch lands in a fiercely competitive market where Rivaler främjar aggressivt sina egna rösttekniker. I maj gjorde Anthropic en betydande inträde genom att rulla ut ett röstläge för sin Claude AI. På senare tid eskalerade Meta talangkriget genom att förvärva röststart Playai för en rapporterad 45 miljoner dollar i juli för att stärka sin AI-assistent och smarta glasögon.

Open-källkampen är också en formidabel utmaning. French Startup Mistral släppte sina voxtrala modeller i juli och strävar efter att underskrida proprietära system med en tillåten Apache 2.0-licens och ett löfte om modernaste prestanda till mindre än hälften av priset på konkurrerande API: er.

Just denna månad följde Xiaomi en liknande spelbok och startade sin Midashenglm-7b-modell. Den använder en innovativ bildtexterbaserad träningsmetod för en mer holistisk förståelse för tal, musik och omgivande ljud, även under en kommersiell vänlig licens.

Även etablerade tekniska jättar står inte stilla. I april lanserade Amazon sin uttrycksfulla Nova Sonic-modell i realtid, som integreras i sin Alexa+-assistent. Dess enheter leder, Panos Panay, lovade tidigare att”När du använder Alexa+kommer du också att känna det”och signalerar ett tryck för mer känslomässigt resonanta interaktioner.

Innovationen sträcker sig också till specialiserade startups. Stabilitet AI hanterar bearbetning på enheten, medan andra som Sesame AI driver gränserna för realism för att skapa”konstigt mänskliga klingande”assistenter som omfamnar naturliga brister som pauser och Stutters. Företaget satsar på att en överlägsen utvecklarupplevelse kommer att vara den avgörande faktorn i detta eskalerande plattformskrig.

Categories: IT Info