Openai zwiększa swoje możliwości AI Voice, oficjalnie uruchamiając interfejs API w czasie rzeczywistym dla programistów na całym świecie w czwartek. Centralnym punktem wydania jest GPT Realtime, nowy flagowy model mowy na mowę, który obiecuje bardziej naturalne, ekspresyjne rozmowy przy 20% niższych kosztach.

W celu wzmocnienia programistów budujących agentów głosowych gotowych do produkcji, OpenAI również zaktualizował interfejs API o kluczowych nowych cechach. Obejmują one obsługę wejściowych obrazów, integracja połączeń telefonicznych za pośrednictwem SIP i usprawnione połączenia danych przy użyciu protokołu kontekstowego modelu (MCP).

Ruch ten zapewnia programistom bardziej niezawodne i zdolne narzędzia, pozycjonowanie openai w stosunku do rosnącego pola rywali, takich jak Mistral, Antropic i Xiaomi w wyścigu w celu zdefiniowania przyszłości głosu. src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>

pod maską: bardziej inteligentny i ekspresyjny model głosowy

Model nowości gpt-realtime a istotne skok w wydajności. Openai twierdzi, że jest to jego najbardziej zaawansowany model głosowy produkcji. Ocenił 82,8% w oceny audio Big Bench dla rozumowania, co stanowi poważny skok z 65,6% poprzedniego modelu. Umożliwia to lepszą interpretację niewerbalnych wskazówek, takich jak śmiech, języki przełączające w połowie zdania i dokładne obsługa sekwencji alfanumerycznych.

Podnoszenie instrukcji, krytyczna funkcja dla niezawodnych agentów, została również zwiększona. Model poprawił swój wynik w odniesieniu Multichallenge Audio z 20,6% do 30,5%, umożliwiając mu bardziej niezawodne przestrzeganie konkretnych wierszy programistów, takich jak czytanie prawnych zrzeczenia się narzędzi wsparcia.

[zawartość wbudowana]

, aby być użytecznym w prawdziwym świecie, agent głosowy musi skutecznie korzystać z narzędzi zewnętrznych. W tym przypadku dokładność funkcji GPT Realtime w odniesieniu kompleksu Funcbench wzrosła do 66,5% z 49,7%. Zapewnia to, że model wywołuje właściwe funkcje z prawidłowymi argumentami bardziej konsekwentnie.

Poza surową inteligencją, model został przeszkolony w celu tworzenia mowy wyższej jakości z bardziej ludzką intonacją, emocjami i tempem. Może postępować zgodnie z drobnoziarnistymi instrukcjami, takimi jak „Mów szybko i profesjonalnie” lub „mówić empatycznie francuskim akcentem”, aby stworzyć bardziej dostosowane doświadczenie.

Aby zaprezentować te zyski, firma wydała dwa nowe głosy, Cedar i Marin, które są dostępne wyłącznie w API i zawierać najbardziej znaczące ulepszenia w naturalnym przemówieniu. Aktualizacja Openai to bezpośrednia próba stworzenia bardziej angażujących i mniej robotycznych doświadczeń użytkowników.

Programiści doładowania: Ulepszenia API dla agentów gotowych do produkcji

poza nowym modelem, sam interfejs API w czasie rzeczywistym jest teraz produkcji. Wyprowadził się z publicznej wersji beta, która rozpoczęła się w październiku 2024 r., Przynosząc ze sobą pakiet nowych nowych możliwości zaprojektowanych do zastosowań w świecie rzeczywistym. Openai zauważa, że ​​informacje zwrotne od tysięcy programistów podczas beta pomogły ukształtować te ulepszenia gotowe do produkcji.

Architektura API, która przetwarza dźwięk bezpośrednio za pomocą jednego modelu, jest zaprojektowana w celu zmniejszenia opóźnienia i zachowania niuansu w mowie, co jest wyraźną zaletą tradycyjnych rurociągów, które łączą wiele modeli dla mowy na text i text na stanowisko w formie mowy i menu. (MCP) serwery. Ten otwarty standard upraszcza sposób, w jaki modele AI łączą się z danymi zewnętrznymi. Deweloperzy mogą teraz przejść adres URL zdalnego serwera MCP do konfiguracji sesji , umożliwiając API na automatyczne obsługi narzędzi narzędzi bez konieczności ręcznych integracji. Krytyczny krok do budowania zdolnych agentów biznesowych przy jednoczesnym ustaleniu priorytetów danych i prywatności użytkownika.

API obsługuje również dane wejściowe obrazów, umożliwiając multimodalne rozmowy, w których agent może analizować i omawiać, co widzi użytkownik. System traktuje obrazy jak migawka dodana do czatu, a nie strumień wideo na żywo, zapewniając programistom kontrolę nad tym, co widzi model. To odblokowuje przypadki użycia, takie jak poproszenie agenta o opisanie zdjęcia lub tekstu z zrzutu ekranu.

Ponadto nowa obsługa protokołu inicjacji sesji (SIP) umożliwia bezpośrednie integrację z publicznymi sieciami telefonicznymi, systemami PBX i innymi punktami końcowymi telefoniczną, które są już łatwiejsze. Zillow, który uzyskał wczesny dostęp, używa interfejsu API do zasilania wyszukiwania domu nowej generacji. Szef AI firmy, Josh Weisberg, poinformował, że „wykazuje silniejsze rozumowanie i bardziej naturalną mowę… pozwala jej obsługiwać złożone, wieloetapowe prośby, takie jak zawężenie list potrzeb…„ Podkreślając potencjał złożonych interakcji z klientami.

Otwarty wyzwanie w zatłoczonym głosie AI Arena

Lands Openai w FierCy, w którym rynek konkurencyjny w miejscu, w którym rynek konkurencyjny jest to otwarty rynek. Rywale agresywnie rozwijają własne technologie głosowe. W maju Anthropic dokonał znacznego wpisu, wprowadzając tryb głosowy dla swojej AI Claude. Niedawno Meta eskalowała wojnę talentów, zdobywając startup głosowy Playai za zgłoszone w lipcu 45 milionów dolarów, aby wzmocnić swojego asystenta AI i inteligentne okulary.

Społeczność typu open source również stanowi ogromne wyzwanie. Francuski startup Mistral wydał w lipcu swoje modele Voxtral, mając na celu podcięcie zastrzeżonych systemów z dopuszczalną licencją Apache 2.0 i obietnicą najnowocześniejszej wydajności w mniej niż połowie ceny konkurencyjnych interfejsów API.

W tym miesiącu Xiaomi podążał za podobnym podręcznikiem, uruchamiając swój model MidashenglM-7b. Wykorzystuje innowacyjną metodę szkolenia opartą na podpisach dla bardziej holistycznego zrozumienia mowy, muzyki i dźwięków otoczenia, również pod przyjazną komercyjną licencją.

Nawet ustalonymi gigantami technologicznymi nie stoją w miejscu. W kwietniu Amazon uruchomił swój ekspresyjny model Sonic w czasie rzeczywistym, który jest zintegrowany z asystentem Alexa+. Jego urządzenia prowadzą, Panos Panay, wcześniej obiecał, że „kiedy używasz Alexa+, poczujesz to”, sygnalizując nacisk na bardziej emocjonalnie rezonansowe interakcje.

Innowacja obejmuje również wyspecjalizowane startupy. Stabilność AI zajmuje się przetwarzaniem na urządzeniu, podczas gdy inni tacy jak Sesame AI przekraczają granice realizmu, aby stworzyć „niesamowicie ludzkie” asystentów, którzy przyjmują naturalne niedoskonałości, takie jak przerwy i szczurki.

, dzięki czemu jego najbardziej zaawansowana technologia głosowa jest bardziej dostępna, potężna i przystępna, opetai, tworząc swoje przywództwo. Firma obstawia, że ​​doskonałe doświadczenie programistów będzie decydującym czynnikiem w tej eskalującej wojnie platformy.

Categories: IT Info