sotto il cofano Openai afferma che è il suo più avanzato, modello vocale pronto per la produzione, ma , offrendo importanti miglioramenti nelle seguenti istruzioni, chiamando gli strumenti più alti con precisione e producendo un discorso che suona più naturale ed espressivi. intelligenza. Ha segnato l’82,8% sulla valutazione audio di Big Bench per il ragionamento, un grande salto dal 65,6% del modello precedente. Ciò gli consente di interpretare meglio segnali non verbali come le risate, cambiare le lingue a metà sentenza e gestire accuratamente le sequenze alfanumeriche. Anche
che seguono le istruzioni, una funzione critica per agenti affidabili. Il modello ha migliorato il suo punteggio sul benchmark audio MultiChallenge dal 20,6% al 30,5%, consentendo di aderire in modo più affidabile a istruzioni di sviluppatori specifiche, come leggere un disclaimer legale alla lettera su una chiamata di supporto.
[contenuto incorporato]
per essere utile nel mondo reale, un agente vocale deve utilizzare efficacemente gli strumenti esterni. Qui, l’accuratezza del calcio delle funzioni di GPT-REALTime sul benchmark di complessofuncbench è salita al 66,5% dal 49,7%. Ciò garantisce che il modello chiama le funzioni giuste con gli argomenti corretti in modo più coerente.
Oltre all’intelligenza grezza, il modello è stato addestrato per produrre un discorso di qualità superiore con più intonazione, emozione e ritmo più umani. It can follow fine-grained instructions, such as “speak quickly and professionally”or “speak empathetically in a French accent,”to create a more tailored experience.
To showcase these gains, the company released two new voices, Cedar and Marin, which are available exclusively in the API and feature the most significant improvements to natural-sounding speech.
This focus on nuance aims to solve a key industry challenge. L’aggiornamento di Openai è un tentativo diretto di creare esperienze utente più coinvolgenti e meno robotiche.
Sviluppatori di sovralimentazione: aggiornamenti API per agenti pronti per la produzione
Oltre il nuovo modello, l’API in tempo reale è ora in produzione di produzione. Si è trasferito dalla beta pubblica iniziata nell’ottobre 2024, portando con sé una suite di nuove potenti capacità progettate per applicazioni del mondo reale. Openai osserva che il feedback di migliaia di sviluppatori durante la beta ha contribuito a modellare questi miglioramenti pronti per la produzione.
L’architettura dell’API, che elabora l’audio direttamente attraverso un singolo modello, è progettata per ridurre la latenza e preservare la sfumatura nel discorso, una distinta vantaggio di contesto di remoto (MCP di contesto di remoto (MCP di remoto (MCP di remoto è un contesto di remoto. server. Questo standard aperto semplifica il modo in cui i modelli AI si collegano a dati esterni. Gli sviluppatori possono ora passare l’URL di un server MCP remoto nella configurazione della sessione , per consentire all’API di gestire automaticamente le chiamate degli strumenti, a una maneggio di proporzioni. Passaggio critico per la costruzione di agenti aziendali capaci mentre dà la priorità ai dati degli utenti e alla privacy.
L’API ora supporta anche gli input di immagini, consentendo conversazioni multimodali in cui un agente può analizzare e discutere ciò che un utente sta vedendo. Il sistema tratta immagini come un’istantanea aggiunta alla chat, non un flusso video in diretta, garantendo che gli sviluppatori mantengano il controllo su ciò che vede il modello. Questo sblocca casi d’uso come chiedere a un agente di descrivere una foto o un testo di lettura da uno screenshot.
Inoltre, il supporto SIP (Nuovo Protocollo di iniziazione di iniziazione della sessione consente l’integrazione diretta con le reti telefoniche pubbliche, i sistemi PBX e altri endpoint di telefonia aziendale, rendendolo più facile da implementare endpoint endpoint, rendendolo più facile da implementare i benefici endpoint. Zillow, che ha ottenuto un accesso precoce, sta usando l’API per alimentare la sua ricerca domestica di prossima generazione. Il capo AI dell’azienda, Josh Weisberg, ha riferito che”mostra un ragionamento più forte e un discorso più naturale… permettendogli di gestire richieste complesse e multi-fase come restringere gli elenchi per bisogni di stile di vita…”evidenziando il suo potenziale per le interazioni complesse del cliente. I rivali stanno avanzando aggressivamente le proprie tecnologie vocali. A maggio, Antropico ha effettuato una voce significativa lanciando una modalità vocale per la sua AI Claude. Più recentemente, Meta ha intensificato la guerra dei talenti acquisendo il Playup Voice Startup Playai per $ 45 milioni segnalati a luglio per rafforzare il suo assistente di intelligenza artificiale e gli occhiali intelligenti.
La comunità open source sta anche montando una sfida formidabile. La startup francese Mistral ha rilasciato i suoi modelli Voxtral a luglio, con l’obiettivo di ridurre i sistemi proprietari con una licenza permissiva Apache 2.0 e una promessa di prestazioni all’avanguardia a meno della metà del prezzo delle API in competizione.
proprio questo mese, Xiaomi ha seguito un modello di playomi, lanciando il suo modello midashenglm-7B. Utilizza un metodo di formazione basato su didascalie innovativo per una comprensione più olistica di discorsi, musica e ambientali, anche sotto una licenza commerciale.
Anche i giganti tecnologici consolidati non sono fermi. Ad aprile, Amazon ha lanciato il suo modello Nova Sonic espressivo in tempo reale, che è stato integrato nel suo assistente Alexa+. I suoi dispositivi guidano, Panos Panay, in precedenza aveva promesso che”quando usi Alexa+, lo sentirai”, segnala una spinta per interazioni più emotivamente risonanti.
L’innovazione si estende anche alle startup specializzate. L’IA di stabilità sta affrontando l’elaborazione in dispositivo, mentre altri come il sesamo AI stanno spingendo i confini del realismo per creare assistenti”stranamente dal suono umano”che abbracciano imperfezioni naturali come pause e balbettatori. La società sta scommettendo che un’esperienza di sviluppatore superiore sarà il fattore decisivo in questa crescente guerra alla piattaforma.