Openai lisää äänen AI-ominaisuuksiaan, käynnistäen virallisesti reaaliaikaisen sovellusliittymänsä kehittäjille maailmanlaajuisesti torstaina. Julkaisun keskipiste on GPT-Realtime, uusi lippulaivapuhepuhe-malli, joka lupaa luonnollisempia, ilmeisempiä keskusteluja 20%: n alhaisemmilla kustannuksilla.
kehittäjille, jotka rakentavat tuotantovalmiita ääniagentteja, on myös päivittänyt sovellusliittymän tärkeillä uusilla ominaisuuksilla. Näihin sisältyy kuvan tulojen tueksi, puhelinsoiton integrointi SIP: n kautta ja virtaviivaistetut datayhteydet mallia kontekstin protokollaa (MCP). src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>
konepellin alla: älykkäämpi ja ilmeisempi äänimalli
The Uusi GPT-Realtime-malli-malli
The Uusi GPT-Realtime-malli. Openai väittää, että se on sen Edistyneimmät, tuotantovalmiit äänimalli vielä , toimittaen suuria parannuksia seuraavien monimutkaisten ohjeiden, soittamisen tarkkuudella ja tuotantopuheen tuottamisessa. Se sai 82,8% Big Bench Audio-arvioinnista päättelyä varten, mikä on merkittävä hyppy edellisen mallin 65,6%. Tämän avulla se voi tulkita paremmin ei-sanallisia vihjeitä, kuten naurua, vaihtaa kieliä lauseen puolivälissä ja käsitellä tarkasti aakkosnumeerisia sekvenssejä. Malli paransi pistemääränsä Multichallenge-äänivertailussa 20,6%: sta 30,5%: iin, mikä antoi sen luotettavasti noudattaa tiettyjä kehittäjän kehotuksia, kuten laillisen vastuuvapauslausekkeen lukemista tukipuhelussa.
[upotettu sisältö]
ollakseen hyödyllinen todellisessa maailmassa. Täällä GPT-RealTime: n toiminnan kutsuminen ComplexFuncbench-vertailuarvossa nousi 66,5%: iin 49,7%: sta. Tämä varmistaa, että malli kutsuu oikeita toimintoja oikeilla argumenteilla johdonmukaisemmin.
RAW-älykkyyden ulkopuolella, malli koulutettiin tuottamaan korkealaatuisempaa puhetta ihmisen kaltaisella intonaatiolla, tunne-ja vauhdilla. Se voi noudattaa hienorakeisia ohjeita, kuten”puhua nopeasti ja ammattimaisesti”tai”puhua empaattisesti ranskalaisella aksentilla”, räätälöitymmän kokemuksen luomiseksi.
Näiden voittojen esittämiseksi yritys julkaisi kaksi uutta ääntä, Cedar ja Marin, jotka ovat saatavilla yksinomaan API: ssa ja ominaisuuksien merkittävimpiä parannuksia luonnollisiin puheisiin. Openain päivitys on suora yritys luoda kiinnostavampia ja vähemmän robotti-käyttäjäkokemuksia. Se on muuttanut julkisesta beetasta, joka alkoi lokakuussa 2024, tuomalla mukanaan voimakkaita uusia ominaisuuksia, jotka on suunniteltu reaalimaailman sovelluksiin. Openai toteaa, että tuhansien kehittäjien palaute beeta-aikana auttoi muotoilemaan näitä tuotantovalmiita parannuksia.
API: n arkkitehtuuri, joka käsittelee ääntä suoraan yhden mallin kautta, on suunniteltu vähentämään viivettä ja säilyttämään vivahteen puheessa, selkeä etu perinteisiin putkilinjoihin, jotka ketjuttavat useita malleja puhe-teksti-ja tekstikontekstin profiilitoimintoihin. palvelimet. Tämä avoin standardi yksinkertaistaa, kuinka AI-mallit muodostavat yhteyden ulkoisiin tietoihin. Kehittäjät voivat nyt siirrä etäkäyttöisen MCP-palvelimen URL-osoitteen istunnon kokoonpanoon , jolloin sovellusliittymän avulla voidaan käsitellä automaattisesti tarvitsematta manuaalisia integraatioita. Vaihe rakentaa kykeneviä yritysagentteja priorisoimalla käyttäjätietoja ja yksityisyyttä.
API tukee nyt myös kuvan syötteitä, jolloin multimodaaliset keskustelut voivat analysoida ja keskustella siitä, mitä käyttäjä näkee. Järjestelmä kohtelee kuvia, kuten chattiin lisätyn tilannekuvan, ei live-videovirran, varmistaen, että kehittäjät säilyttävät mallin näkemän hallinnan. Tämä avaa käyttötapaukset, kuten agentin pyytäminen kuvaamaan valokuvaa tai lukemaan tekstiä kuvakaappauksesta.
Lisäksi uusi istuntoprotokolla (SIP)-tuki mahdollistaa suoran integroinnin julkisiin puhelinverkkoihin, PBX-järjestelmiin ja muihin yrityspuhelinten päätepisteisiin, mikä helpottaa ääniohjelmien käyttöönottoa ja muita liiketoimintaympäristöjä. Varhaisessa vaiheessa saatu Zillow käyttää sovellusliittymää seuraavan sukupolven kotihakuaan. Yrityksen AI-päällikkö Josh Weisberg kertoi, että “sillä on vahvempi päättely ja luonnollisempi puhe… sallia sen käsitellä monimutkaisia, monivaiheisia pyyntöjä, kuten elämäntapojen tarpeita koskevien luetteloiden kaventaminen…”,”Korostamalla sen potentiaalia monimutkaiselle asiakasvuorovaikutukselle.