Microsoft ha lanzado cuatro innovadoras voces neuronales de IA para aplicaciones de texto a voz (TTS), diseñadas específicamente para la integración con Azure OpenAI Service. Estas voces están preparadas para mejorar los chatbots, asistentes de voz y agentes conversacionales basados ​​en el habla.

Voces optimizadas para escenarios conversacionales

Las voces recién introducidas reciben nombres en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNeural (todos en inglés de EE. UU.) y zh-CH-YunjieNeural (chino). Estas voces se han ajustado para contextos conversacionales y actualmente están disponibles para vista previa pública en tres regiones: este de EE. UU., sudeste asiático y Europa occidental. Microsoft ha proporcionado muestras de estas voces, destacando sus avances en la entrega de un habla más natural y fluida en comparación con las voces neuronales existentes.

“…amigable y optimista acerca de la vida, siempre dispuesto a ayudar a los demás y compartir ideas interesantes o prácticas. conocimiento. El estilo de habla de la voz se asemeja a una conversación con un conocido tomando una taza de té, manteniendo un tono natural y no exagerado.”Esta declaración de Microsoft enfatiza la personalidad y el tono detrás de cada voz.

Avances tecnológicos detrás de las voces

Los continuos esfuerzos de Microsoft para mejorar las técnicas de modelado de texto a voz (TTS) han llevado a mejoras significativas en la calidad de las voces de IA. Proyectos recientes como DelightfulTTS 2 y MuLanTTS han cerrado la brecha de calidad entre las voces de IA y las grabaciones humanas profesionales. Estos proyectos han desempeñado un papel fundamental en la producción de voces que suenan más naturales y realistas. Este progreso tecnológico constituye la base de las voces de IA recientemente introducidas.

Los desarrolladores pueden integrar perfectamente estas voces en sus aplicaciones mediante el SDK de voz de Azure o API REST. Azure Bot Framework también ofrece capacidades para crear bots inteligentes que pueden utilizar estas nuevas voces TTS neuronales.

La amplia oferta de Microsoft incluye más de 400 voces neuronales, que abarcan más de 140 idiomas y configuraciones regionales. Esta amplia gama garantiza que los desarrolladores y las empresas tengan una gran cantidad de opciones para brindar experiencias de conversación enriquecidas a sus usuarios.

Categories: IT Info