Microsoft ha lanciato quattro innovative voci neurali AI per applicazioni di sintesi vocale (TTS), progettate specificamente per l’integrazione con il servizio Azure OpenAI. Queste voci sono progettate per migliorare chatbot vocali, assistenti vocali e agenti conversazionali.

Voci ottimizzate per scenari di conversazione

Le voci appena introdotte prendono il nome en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNeural (tutti in inglese americano) e zh-CH-YunjieNeural (cinese). Queste voci sono state ottimizzate per contesti di conversazione e sono attualmente disponibili per l’anteprima pubblica in tre regioni: Stati Uniti orientali, Asia sudorientale ed Europa occidentale. Microsoft ha fornito esempi di queste voci, evidenziandone i progressi nel fornire un parlato più naturale e fluido rispetto alle voci neurali esistenti.

“…amichevole e ottimista riguardo alla vita, sempre desideroso di assistere gli altri e condividere informazioni intriganti o pratiche conoscenza. Lo stile di conversazione della voce ricorda una conversazione con un conoscente davanti a una tazza di tè, mantenendo un tono naturale e non esagerato.”Questa dichiarazione di Microsoft enfatizza la personalità e il tono dietro ogni voce.

Progressi tecnologici dietro le voci

I continui sforzi di Microsoft per migliorare le tecniche di modellazione Text-to-Speech (TTS) hanno portato a miglioramenti significativi nella qualità delle voci AI. Progetti recenti come DelightfulTTS 2 e MuLanTTS hanno colmato il divario di qualità tra le voci AI e le registrazioni umane professionali. Questi progetti hanno svolto un ruolo fondamentale nella produzione di voci dal suono più naturale e realistico. Tale progresso tecnologico costituisce la base per le voci AI recentemente introdotte.

Gli sviluppatori possono integrare perfettamente queste voci nelle loro applicazioni utilizzando Azure Speech SDK o API REST. Azure Bot Framework offre anche funzionalità per creare bot intelligenti in grado di utilizzare queste nuove voci TTS neurali.

L’ampia offerta di Microsoft include oltre 400 voci neurali, in più di 140 lingue e impostazioni locali. Questa vasta gamma garantisce agli sviluppatori e alle aziende una vasta gamma di scelte per offrire esperienze di conversazione arricchite ai propri utenti.

Categories: IT Info