Openai stopt zijn stem AI-mogelijkheden op en lanceert donderdag officieel zijn realtime API voor ontwikkelaars wereldwijd. Het middelpunt van de release is GPT-Realtime, een nieuw vlaggenschip speech-to-speech-model dat meer natuurlijke, expressieve gesprekken belooft tegen een lagere kosten van 20%.

Om ontwikkelaars die de productie-ready spraakagents opbouwen, heeft Openai de API ook opgewaardeerd met cruciale nieuwe functies. Deze omvatten ondersteuning voor beeldinvoer, integratie van telefoongeoproep via SIP en gestroomlijnde gegevensverbindingen met behulp van het Model Context Protocol (MCP).

De verhuizing biedt ontwikkelaars meer betrouwbare en capabele hulpmiddelen, die openkeren tegen een groeiend veld van rivalen zoals mistral, anthropic en xiaomi in de race om de toekomst te definiëren. src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>

onder de motorkap: een meer intelligent en expressief stemmodel

Het nieuwe GPT-realtime-model markeert een significante leep in prestaties. OpenAI beweert dat het zijn meest geavanceerde, productie-ready spraakmodel tot nu toe , het leveren van belangrijke verbeteringen in de volgende complexe instructies, het produceren van tools met precisie, en het produceren van speech die meer natuurlijk en expresief is. Het scoorde 82,8% op de Big Bench Audio-evaluatie voor redeneren, een grote sprong van de 65,6% van het vorige model. Hierdoor kan het non-verbale signalen zoals gelach beter interpreteren, de talen midden in de zin schakelen en alfanumerieke sequenties nauwkeurig verwerken.

instructie, een kritieke functie voor betrouwbare agenten, is ook verbeterd. Het model verbeterde zijn score op de multichallenge audiobenchmark van 20,6% naar 30,5%, waardoor het zich betrouwbaarder kan houden aan specifieke ontwikkelaarsprompts, zoals het lezen van een wettelijke disclaimer letterlijk op een ondersteuningsoproep.

[ingebedde inhoud]

om nuttig te zijn in de echte wereld, moet een spraakagent effectief externe tools gebruiken. Hier steeg de functie-nauwkeurigheid van GPT-Realtime op de benchmark ComplexFuncBench tot 66,5% van 49,7%. Dit zorgt ervoor dat het model de juiste functies met de juiste argumenten consistenter noemt.

Naast ruwe intelligentie werd het model getraind om spraak van hogere kwaliteit te produceren met meer mensachtige intonatie, emotie en tempo. Het kan fijnkorrelige instructies volgen, zoals”snel en professioneel spreken”of”empathisch spreken in een Frans accent”, om een ​​meer op maat gemaakte ervaring te creëren.

Om deze winst te laten zien, heeft het bedrijf twee nieuwe stemmen uitgebracht, Cedar en Marin, die exclusief beschikbaar zijn in de API en de belangrijkste verbeteringen op natuurlijke verbeteringen voor natuurlijke verbeteringen voor natuurlijke verbeteringen. De update van OpenAI is een directe poging om meer boeiende en minder robotachtige gebruikerservaringen te creëren.

Supercharging ontwikkelaars: API-upgrades voor productie-ready agenten

Voorbij het nieuwe model is de realtime API zelf nu productie-kwaliteit. Het is uit de openbare bèta verhuisd die in oktober 2024 begon en een reeks krachtige nieuwe mogelijkheden met zich meebrengt die zijn ontworpen voor toepassingen in de praktijk. OpenAI merkt op dat feedback van duizenden ontwikkelaars tijdens de bèta heeft bijgedragen aan deze productie-ready verbeteringen.

De architectuur van de API, die audio rechtstreeks via een enkel model verwerkt, is ontworpen om latentie te verminderen en de nuance in spraak te behouden, een duidelijk voordeel ten opzichte van traditionele pijplijnen die meerdere modellen keten voor spraak-en tekst-text. servers. Deze open standaard vereenvoudigt hoe AI-modellen verbinding maken met externe gegevens. Ontwikkelaars kunnen nu de URL van een externe MCP-server doorgeven in de sessieconfiguratie , waardoor de API automatisch kan worden behandeld met behulp van handleiding voor handleiding. Stap voor het bouwen van capabele bedrijfsagenten terwijl u prioriteit geeft aan gebruikersgegevens en privacy.

De API ondersteunt nu ook beeldinvoer, waardoor multimodale gesprekken mogelijk worden gemaakt waarbij een agent kan analyseren en bespreken wat een gebruiker ziet. Het systeem behandelt afbeeldingen zoals een momentopname die aan de chat is toegevoegd, niet een live videostream, waardoor ontwikkelaars de controle behouden over wat het model ziet. Dit ontgrendelt use cases zoals het vragen van een agent om een ​​foto te beschrijven of tekst te lezen van een screenshot.

Bovendien maakt het nieuwe sessie-initiatieprotocol (SIP)-ondersteuning directe integratie mogelijk met openbare telefoonnetwerken, PBX-systemen, PBX-systemen, en andere ondernemingstelefonie-eindpunten, waardoor de eigenschappen van de onderneming al zijn toegevoegd. Zillow, dat vroege toegang heeft gekregen, gebruikt de API om zijn volgende generatie thuiszoeking van stroom te voorzien. Het AI-hoofd van het bedrijf, Josh Weisberg, meldde dat”het een sterkere redenering en meer natuurlijke spraak vertoont… waardoor het complexe, multi-step-verzoeken kan afhandelen, zoals het verknoeien van aanbiedingen door lifestyle-behoeften…”, benadrukt het potentieel voor complexe klantinteracties.

een open uitdaging in een drukke stem AI ARICE>

Rivalen bevorderen agressief hun eigen stemtechnologieën. In mei maakte Anthropic een aanzienlijke inzending door een spraakmodus voor zijn Claude AI uit te rollen. Meer recent escaleerde Meta de talentenoorlog door Voice Startup Playai te verwerven voor een gerapporteerde $ 45 miljoen in juli om zijn AI-assistent en slimme bril te versterken.

De open-source community monteert ook een formidabele uitdaging. French Startup Mistral heeft in juli zijn voxtrale modellen vrijgegeven, met als doel eigen systemen te ondermijnen met een permissieve Apache 2.0-licentie en een belofte van state-of-the-art prestaties tegen minder dan de helft van de prijs van concurrerende API’s.

Alleen deze maand volgde Xiaomi een soortgelijk speelboek, lanceerde Xiaomi een soortgelijk speelboek, lanceerde het Midhenglm-7B-model. Het maakt gebruik van een innovatieve bijschriften gebaseerde trainingsmethode voor een meer holistisch begrip van spraak-, muziek-en ambientgeluiden, ook onder een commercieel-vriendelijke licentie.

Zelfs gevestigde tech-reuzen staan ​​niet stil. In april lanceerde Amazon zijn realtime expressieve Nova Sonic-model, dat wordt geïntegreerd in zijn Alexa+ Assistant. De apparaten leiden, Panos Panay, eerder beloofd dat”wanneer je Alexa+gebruikt, je het zult voelen,”een duwtje aangeeft voor meer emotioneel resonerende interacties.

De innovatie strekt zich ook uit tot gespecialiseerde startups. Stabiliteit AI pakt de verwerking van de apparaten aan, terwijl anderen zoals Sesam AI de grenzen van het realisme verleggen om’griezelig menselijk klinkende’assistenten te creëren die natuurlijke imperfecties omarmen, zoals pauzes en stutters.

door de meest geavanceerde stemtechnologie meer toegang te maken, machtig en betaalbaar, Openai is om een ​​strategisch spel te behouden. Het bedrijf wedt dat een superieure ontwikkelaarservaring de beslissende factor zal zijn in deze escalerende platformoorlog.

Categories: IT Info