A

Openai fokozza a hang AI képességeit, és hivatalosan elindítja a valós idejű API-t a fejlesztők számára világszerte csütörtökön. A kiadás középpontjában a GPT-Realtime, egy új zászlóshajó-beszéd-beszéd modell, amely természetes, kifejezőbb beszélgetéseket ígér 20%-kal alacsonyabb költséggel. Ide tartoznak a képbemenetek támogatása, a telefonhívás integrációja SIP-en keresztül, és az adatkapcsolatok ésszerűsített adatkapcsolatok a Model Context Protocol (MCP) segítségével. src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>

A motorháztető alatt: egy intelligensebb és kifejezőbb hangmodell

Az új GPT-realimer Marks A teljesítmény. Az OpenAi azt állítja, hogy ez A legfejlettebb, produkciós hangmodell, mégis , jelentős fejlesztéseket nyújtva az összetett utasítások követésében, a Precision-val, a Precision-val való előállítási beszédet, amely természetes és expresszív. 82,8%-ot tett ki a Big Bench audio értékelésén az érveléshez, ami az előző modell 65,6%-ához képest jelentős ugrás. Ez lehetővé teszi, hogy jobban értelmezze a nem verbális jelzéseket, mint például a nevetés, a nyelveinek a bántalmazás közepén történő váltása és az alfanumerikus szekvenciák pontos kezelése. A modell 20,6%-ról 30,5%-ra javította a MultiCallenge Audio referenciaérték pontszámát, lehetővé téve, hogy megbízhatóbban tartsa be az egyes fejlesztői utasításokat, például egy jogi nyilatkozat szó szerinti olvasása egy támogatási híváson. Itt a GPT-Realtime funkcióhívási pontossága a ComplexFuncBench referenciaértékén 66,5%-ra emelkedett 49,7%-ról. Ez biztosítja, hogy a modell a megfelelő funkciókat a megfelelő érvekkel következetesebben hívja. Követheti a finomszemcsés utasításokat, például a „Gyorsan és szakmailag beszéljen” vagy „empatikusan beszéljen egy francia akcentussal”, hogy testreszabottabb élményt hozzon létre. Az Openai frissítése egy közvetlen kísérlet, hogy vonzóbb és kevésbé robot felhasználói élményeket hozzon létre. Elköltözött a nyilvános béta-ból, amely 2024 októberében kezdődött, és a valós alkalmazásokhoz tervezett erőteljes új képességekből áll. Az Openai megjegyzi, hogy a bétaverzió során több ezer fejlesztő visszajelzése segített kialakítani ezeket a termelésre kész fejlesztéseket. szerverek. Ez a nyitott standard egyszerűsíti, hogy az AI modellek hogyan kapcsolódnak a külső adatokhoz. A fejlesztők most átadhatják a távoli MCP-kiszolgáló URL-jét, lehetővé téve az API-nak az eszközöket, hogy automatikusan kezeljék a szerszámhívásokat. A tehetséges üzleti ügynökök felépítéséhez, miközben a felhasználói adatok és a magánélet prioritásait prioritássá teszik. A rendszer a képeket úgy kezeli, mint egy pillanatfelvétel a csevegéshez, nem pedig egy élő video stream, amely biztosítja a fejlesztők ellenőrzését a modell által látott. Ez a feloldás olyan eseteket használ, mint például az ügynök kérése egy fénykép leírására vagy a képernyőképről szóló szöveg olvasására. A Zillow, amely korai hozzáférést kapott, az API-t használja a következő generációs otthoni kereséshez. A társaság AI vezetője, Josh Weisberg arról számolt be, hogy „erősebb érvelést és természetes beszédet mutat be… lehetővé téve az összetett, többlépcsős kérések kezelését, mint például az életmód-igények szűkítése. A riválisok agresszív módon fejezik ki saját hangtechnológiájukat. Májusban az antropikus jelentős belépést tett a Claude AI hangmódjának bevezetésével. A közelmúltban a Meta a tehetségháborúval azáltal, hogy júliusban 45 millió dollárt jelentett be a PlayAI-t, a Jelentésben 45 millió dollárért, hogy támogassa AI asszisztense és intelligens szemüvegét.

A nyílt forráskódú közösség szintén félelmetes kihívást jelent. A French Startup Mistral júliusban adta ki Voxtral modelleit, azzal a céllal, hogy a szabadalmaztatott rendszereket egy megengedő Apache 2.0 licenc és a korszerű teljesítmény ígéretével, a versengő API-k ára kevesebb mint felénél, a Xiaomi egy hasonló játékkönyvet követt, és elindította a MidashengLM-7B modellt. Innovatív képaláírási alapú edzési módszert alkalmaz a beszéd, a zene és a környezeti hangok holisztikusabb megértésére, szintén kereskedelmibarát licenc alatt. Áprilisban az Amazon elindította a valós idejű expresszív Nova Sonic modelljét, amelyet integrálnak az Alexa+ asszisztensbe. Az eszközök vezetője, a Panos Panay, korábban megígérte, hogy „amikor az Alexa+-ot használja, akkor ezt fogja érezni”, jelezve az érzelmileg rezonancia interakciók ösztönzését. A stabilitás az AI az eszköz feldolgozásával foglalkozik, míg mások, mint például a Sesame AI, tolja a realizmus határait, hogy „félelmetesen emberi hangzású” asszisztenseket hozzon létre, amelyek magukban foglalják a természetes hiányosságokat, mint például a szünetek és a dadogók. A vállalat azt fogadja, hogy egy kiváló fejlesztői tapasztalat lesz a döntő tényező ebben a fokozódó platformháborúban.