Ang Openai ay tumataas sa mga kakayahan ng boses na AI, opisyal na inilulunsad ang realtime API para sa mga developer sa buong mundo noong Huwebes. Ang sentro ng paglabas ay ang GPT-Realtime, isang bagong modelo ng pagsasalita-sa-pagsasalita na modelo na nangangako ng mas natural, nagpapahayag na mga pag-uusap sa isang 20% na mas mababang gastos. Kasama dito ang suporta para sa mga input ng imahe, pagsasama ng tawag sa telepono sa pamamagitan ng SIP, at mga naka-streamline na koneksyon ng data gamit ang Model Context Protocol (MCP). src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>
sa ilalim ng hood: isang mas matalino at nagpapahayag na modelo ng boses Sinasabi ng Openai na ito ay ang pinaka-advanced, na handa na modelo ng boses katalinuhan. Nag-iskor ito ng 82.8% sa malaking pagsusuri sa audio ng bench para sa pangangatuwiran, isang pangunahing pagtalon mula sa 65.6% ng nakaraang modelo. Pinapayagan nito na mas mahusay na bigyang kahulugan ang mga di-pasalita na mga pahiwatig tulad ng pagtawa, lumipat ng mga wika sa kalagitnaan ng pangungusap, at tumpak na hawakan ang mga pagkakasunud-sunod ng alphanumeric. Pinahusay ng modelo ang marka nito sa benchmark ng audio ng multichallenge mula 20.6% hanggang 30.5%, na pinapagana ito na mas maaasahan na sumunod sa mga tiyak na mga senyas ng developer, tulad ng pagbabasa ng isang ligal na pagtanggi ng verbatim sa isang tawag sa suporta. Dito, ang katumpakan ng pag-andar ng pag-andar ng GPT-Realtime sa Benchmark ng ComplexFuncbench ay tumaas sa 66.5% mula sa 49.7%. Tinitiyak nito ang modelo na tinatawag na tamang pag-andar na may tamang mga argumento nang mas palagi. Maaari itong sundin ang mga pinong grained na mga tagubilin, tulad ng”magsalita nang mabilis at propesyonal”o”magsalita nang empatiya sa isang tuldok na Pranses,”upang lumikha ng isang mas naaangkop na karanasan. Ang pag-update ng OpenAi ay isang direktang pagtatangka upang lumikha ng mas nakakaengganyo at hindi gaanong robotic na karanasan sa gumagamit. Lumipat ito sa labas ng pampublikong beta na nagsimula noong Oktubre 2024, na dinala ito ng isang suite ng malakas na bagong kakayahan na idinisenyo para sa mga real-world application. Ang tala ni Openai na ang puna mula sa libu-libong mga developer sa panahon ng beta ay nakatulong sa paghubog ng mga pagpapabuti na handa na sa paggawa. mga server. Ang bukas na pamantayang ito ay pinapasimple kung paano kumonekta ang mga modelo ng AI sa panlabas na data. Ang mga nag-develop ay maaari na ngayong Ipasa ang URL ng isang remote na MCP server sa pagsasaayos ng session , na pinapayagan ang API na awtomatikong hawakan ang mga tawag sa tool na walang kinakailangang manu-manong pagsasama. Ang isang kritikal na hakbang para sa pagbuo ng mga may kakayahang mga ahente ng negosyo habang pinapahalagahan ang data at privacy ng gumagamit. Ang system ay tinatrato ang mga imahe tulad ng isang snapshot na idinagdag sa chat, hindi isang live na stream ng video, tinitiyak na ang mga developer ay mapanatili ang kontrol sa kung ano ang nakikita ng modelo. Ang mga pag-unlock na ito ay gumagamit ng mga kaso tulad ng pagtatanong sa isang ahente na ilarawan ang isang larawan o basahin ang teksto mula sa isang screenshot. Ang Zillow, na nakakuha ng maagang pag-access, ay gumagamit ng API upang mabigyan ng kapangyarihan ang susunod na henerasyon na paghahanap sa bahay. Ang ulo ng kumpanya ng kumpanya na si Josh Weisberg, ay nag-ulat na”nagpapakita ito ng mas malakas na pangangatuwiran at mas natural na pagsasalita… na pinapayagan itong hawakan ang mga kumplikado, maraming hakbang na mga kahilingan tulad ng nakitid na listahan sa pamamagitan ng mga pangangailangan sa pamumuhay…,”Ang pag-highlight ng potensyal nito para sa mga kumplikadong pakikipag-ugnay sa customer. Ang mga karibal ay agresibo na sumusulong sa kanilang sariling mga teknolohiya ng boses. Noong Mayo, ang Anthropic ay gumawa ng isang makabuluhang pagpasok sa pamamagitan ng pag-ikot ng isang mode ng boses para sa Claude AI nito. Karamihan sa mga kamakailan-lamang, tumaas si Meta sa digmaang talento sa pamamagitan ng pagkuha ng boses startup na Playai para sa isang naiulat na $ 45 milyon noong Hulyo upang palakasin ang katulong at matalinong baso nito. Inilabas ng French Startup Mistral ang mga modelo ng voxtral nitong Hulyo, na naglalayong masira ang mga sistema ng pagmamay-ari na may isang pinahihintulutang lisensya ng Apache 2.0 at isang pangako ng pagganap ng state-of-the-art na mas mababa sa kalahati ng presyo ng nakikipagkumpitensya na mga API. Gumagamit ito ng isang makabagong paraan ng pagsasanay na batay sa caption para sa isang mas holistic na pag-unawa sa mga tunog ng pagsasalita, musika, at ambient, din sa ilalim ng isang lisensya na komersyal na komersyal. Noong Abril, inilunsad ng Amazon ang real-time na nagpapahayag na modelo ng Nova Sonic, na isinama sa katulong na Alexa+. Nangunguna ang mga aparato nito, ang Panos Panay, na dati nang ipinangako na”Kapag gumagamit ka ng Alexa+, mararamdaman mo ito,”na nag-sign ng isang pagtulak para sa higit pang mga emosyonal na pakikipag-ugnay. Ang katatagan ng AI ay humahawak sa pagproseso ng on-device, habang ang iba tulad ng Sesame AI ay nagtutulak sa mga hangganan ng pagiging totoo upang lumikha ng mga”eerily na tunog”na mga katulong na yumakap sa mga likas na pagkadilim tulad ng mga pag-pause at stutters. Ang kumpanya ay nagtaya na ang isang higit na mahusay na karanasan sa developer ay ang pagpapasya ng kadahilanan sa digmaang platform na ito.
Categories: IT Info