Openai trapper opp stemmen AI-evner, og lanserer offisielt sitt sanntids API for utviklere over hele verden torsdag. Midtpunktet i utgivelsen er GPT-RealTime, en ny flaggskip-tale-til-tale-modell som lover mer naturlige, uttrykksfulle samtaler til en 20% lavere kostnad.

For å styrke utviklere som bygger produksjonsklare stemmeagenter, har Openai også oppgradert API med viktige nye funksjoner. Disse inkluderer støtte for bildeinnganger, telefonsamtaleintegrasjon via SIP og strømlinjeformede datatilkoblinger ved bruk av modellkontekstprotokollen (MCP).

Flyttingen gir utviklere mer pålitelige og dyktige verktøy, og plasserer Openai mot et voksende felt av rivaler som Mistral, Anthropic og xiaomi i løpet av rivene som fremtidig vistinteraksjon. src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>

under panseret: en mer intelligent og uttrykksfull stemmemodell

den nye GPT-Real-tiden Marks-modellen Openai hevder at det er dets Mest avansert, produksjonsklar stemmemodell ennå , leverer store forbedringer i å følge komplekse instruksjoner, ringe verktøy med presisjon og produsere tale som høres mer naturlig og uttrykk. Det scoret 82,8% på Big Bench Audio-evalueringen for resonnement, et stort hopp fra den forrige modellens 65,6%. Dette gjør at den bedre kan tolke ikke-verbale signaler som latter, bytte språk midt-setning og nøyaktig håndtere alfanumeriske sekvenser.

Instruksjonsfølger, en kritisk funksjon for pålitelige midler, har også blitt forbedret. Modellen forbedret poengsummen sin på MultiChallenge Audio Benchmark fra 20,6% til 30,5%, slik at den kunne fatte seg mer pålitelig til spesifikke utviklere, for eksempel å lese en juridisk ansvarsfraskrivelse verbatim på en støtteanrop.

[innebygd innhold]

For å være nyttig i den virkelige verden.

[[innebygd innhold]

for å være nyttig i den virkelige verden. Her økte GPT-Realtims funksjonskallende nøyaktighet på ComplexFuncbench-referansen til 66,5% fra 49,7%. Dette sikrer at modellen kaller de riktige funksjonene med de riktige argumentene mer konsekvent.

Utover rå intelligens ble modellen opplært til å produsere tale av høyere kvalitet med mer menneskelignende intonasjon, følelser og tempo. Det kan følge finkornede instruksjoner, for eksempel”snakk raskt og profesjonelt”eller”snakk empatisk i en fransk aksent”, for å skape en mer skreddersydd opplevelse.

For å vise frem disse gevinstene, ga selskapet ut to nye stemmer, målet til å løse og være tilgjengelige for å løse en nøkkel. utfordring. Openais oppdatering er et direkte forsøk på å skape mer engasjerende og mindre robotbrukeropplevelser.

Supercharging-utviklere: API-oppgraderinger for produksjonsklare agenter

Utover den nye modellen er Realtime API i seg selv produksjonsklasse. Den har flyttet ut av den offentlige betaen som begynte i oktober 2024, og førte med seg en serie med kraftige nye muligheter designet for applikasjoner i den virkelige verden. Openai bemerker at tilbakemeldinger fra tusenvis av utviklere under betaen bidro til å forme disse produksjonsklare forbedringene.

APIs arkitektur, som behandler lyd direkte gjennom en enkelt modell, er designet for å redusere latens og bevare nyansen i tale, en tydelig fordel over tradisjonelle rørledninger som kjede multiple modeller for å tale til å tale og tekst-til-tekst-teksten. Pass URL-en til en ekstern MCP-server til å koble til å koble til man manuelle integrasjoner. Kilder, et kritisk trinn for å bygge dyktige forretningsagenter mens de prioriterer brukerdata og personvern.

API støtter nå også bildeinnganger, noe som muliggjør multimodale samtaler der en agent kan analysere og diskutere hva en bruker ser. Systemet behandler bilder som et øyeblikksbilde som er lagt til chatten, ikke en live videostrøm, noe som sikrer at utviklere beholder kontrollen over hva modellen ser. Dette låser opp brukssaker som å be en agent om å beskrive et bilde eller lese tekst fra et skjermbilde.

Videre tillater ny øktinitieringsprotokoll (SIP) støtte Zillow, som fikk tidlig tilgang, bruker API for å drive neste generasjons hjemmesøk. Selskapets AI-leder, Josh Weisberg, rapporterte at “det viser sterkere resonnement og mer naturlig tale… slik at den kan håndtere komplekse, flertrinns forespørsler som å begrense oppføringer etter livsstilsbehov…,”Utheve potensialet for komplekse kunde-interaksjon Rivaler fremmer aggressivt sine egne stemmeteknologier. I mai gjorde Anthropic en betydelig oppføring ved å rulle ut en stemmemodus for sin Claude AI. Nylig eskalerte Meta talentkrigen ved å skaffe seg stemmeoppstart Playai for en rapportert 45 millioner dollar i juli for å styrke AI-assistenten og smarte briller.

Open-source-samfunnet øker også en formidabel utfordring. Fransk oppstart Mistral ga ut Voxtral-modellene i juli, og hadde som mål å undergrave proprietære systemer med en tillatt Apache 2.0-lisens og et løfte om topp moderne ytelse til mindre enn halvparten av prisen på konkurrerende API-er.

bare denne måneden, Xiaomi fulgte en lignende spillbok. Den bruker en innovativ bildetekstbasert treningsmetode for en mer helhetlig forståelse av tale-, musikk-og omgivelseslyder, også under en kommersiell-vennlig lisens.

Selv etablerte tech-giganter står ikke stille. I april lanserte Amazon sin uttrykksfulle Nova Sonic-modell i sanntid, som blir integrert i Alexa+-assistenten. Enhetene fører, Panos Panay, lovet tidligere at”når du bruker Alexa+, vil du føle det,”signaliserer et press for mer følelsesmessig resonansinteraksjoner.

Innovasjonen strekker seg også til spesialiserte oppstart. Stabilitet AI takler prosessering på enheter, mens andre som Sesame AI skyver grensene for realismen til å skape”uhyggelig menneskelig klingende”assistenter som omfavner naturlige ufullkommenheter som pauser og stamper.

ved å gjøre sitt mest avanserte stemmeteknologi mer tilgjengelig, kraftig og rimelig, er Openai et strategisk spill for å opprettholde sin stemmeteknologi mer tilgjengelig, kraftig og rimelig, og å gjøre et strategisk spill for å opprettholde sin mest avanserte stemmeteknologi som en mer tilgjengelig, kraftig og rimelig og rimelig, og å gjøre det mest avanserte stemmeteknologien mer tilgjengelig, kraftig og rimelig og rimelig og rimelig. Selskapet satser på at en overlegen utvikleropplevelse vil være den avgjørende faktoren i denne eskalerende plattformkrigen.

Categories: IT Info