A Microsoft lançou quatro vozes neurais de IA inovadoras para aplicativos de conversão de texto em fala (TTS), projetadas especificamente para integração com o Azure OpenAI Service. Essas vozes são preparadas para aprimorar chatbots baseados em fala, assistentes de voz e agentes de conversação.

Vozes otimizadas para cenários de conversação

As vozes recém-introduzidas são nomeadas en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNeural (todos em inglês dos EUA) e zh-CH-YunjieNeural (chinês). Estas vozes foram ajustadas para contextos de conversação e estão atualmente disponíveis para visualização pública em três regiões: Leste dos EUA, Sudeste Asiático e Europa Ocidental. A Microsoft forneceu amostras dessas vozes, destacando seus avanços na entrega de uma fala mais natural e fluida em comparação com as vozes neurais existentes.

“…amigável e otimista em relação à vida, sempre ansioso para ajudar os outros e compartilhar informações intrigantes ou práticas conhecimento. O estilo de fala da voz lembra uma conversa com um conhecido tomando uma xícara de chá, mantendo um tom natural e sem exageros.”Esta declaração da Microsoft enfatiza a personalidade e o tom por trás de cada voz.

Avanços tecnológicos por trás das vozes

Os esforços contínuos da Microsoft para aprimorar as técnicas de modelagem de conversão de texto em fala (TTS) levaram a melhorias significativas na qualidade das vozes de IA. Projetos recentes como DelightfulTTS 2 e MuLanTTS preencheram a lacuna de qualidade entre vozes de IA e gravações humanas profissionais. Esses projetos desempenharam um papel fundamental na produção de vozes que soam mais naturais e realistas. Esse progresso tecnológico constitui a base para as vozes de IA recentemente introduzidas.

Os desenvolvedores podem integrar perfeitamente essas vozes em seus aplicativos usando o Azure Speech SDK ou API REST. O Azure Bot Framework também oferece recursos para criar bots inteligentes que podem utilizar essas novas vozes neurais TTS.

A extensa oferta da Microsoft inclui mais de 400 vozes neurais, abrangendo mais de 140 idiomas e localidades. Essa vasta gama garante que desenvolvedores e empresas tenham uma infinidade de opções para fornecer experiências de conversação enriquecidas aos seus usuários.

Categories: IT Info