A Microsoft lançou a Vibevoice, um novo modelo de IA de código aberto que cria áudio natural e de forma longa com vários alto-falantes. Anunciado no final de agosto, a ferramenta pode gerar até 90 minutos de fala usando quatro vozes distintas, tornando-a ideal para prototipagem de podcasts ou materiais de treinamento. Para evitar o uso indevido, a Microsoft construiu recursos de segurança, como isenções de responsabilidade audíveis da IA ​​e A

VibeVoice: A Multi-Speaker Podcast Studio on a GPU

VibeVoice’s core innovation lies in its ability to produce extended, multi-speaker conversational audio that remains coerente e natural. O modelo pode sintetizar até 90 minutos de fala contínua com até quatro vozes distintas, a relativamente eficiente . Isso permite que ele seja executado em hardware de nível de consumo, democratizando o acesso para os pesquisadores. A estrutura depende de um modelo de difusão do próximo toque para gerar áudio de alta fidelidade. Essa abordagem preserva a qualidade do áudio, aumentando a eficiência computacional, um fator-chave no processamento de sequências longas sem requisitos maciços de hardware. Isso ajuda a orquestrar a reviravolta natural e mantém a consistência do alto-falante em longas durações. Os usos potenciais variam desde a criação de conteúdo educacional acessível até a prototipagem de diálogo complexo de caracteres para videogames. A empresa está adotando uma postura proativa sobre a implantação responsável da IA, especialmente para uma poderosa ferramenta de código aberto capaz de imitar a conversa humana. Este curto clipe de áudio afirma explicitamente que o conteúdo foi criado pela IA. Além disso, cada arquivo contém uma marca d’água digital oculta, permitindo que a origem do áudio seja rastreada de volta ao modelo.

Os termos de licenciamento da Microsoft impõem limitações estritas. O modelo é barrado de qualquer uso envolvendo representação, criação ou disseminação de desinformação ou conversão de voz em tempo real para os deepfakes. Esses corrimãos pretendem mitigar os riscos enquanto ainda promovem pesquisas abertas. Seus recursos de vários falantes e de formato longo a posicionam como uma alternativa mais avançada às ferramentas existentes, como os resumos de áudio notebooklm de duas vozes do Google. O lançamento ressalta uma corrida mais ampla em todo o setor para a tecnologia de voz sintética perfeita. A OpenAI atualizou recentemente seus próprios recursos de voz com sua API em tempo real. Enquanto isso, empresas como Antrópica, Mistral e Amazon também lançaram modelos poderosos, cada um direcionando diferentes casos de uso de assistentes de IA para soluções corporativas.

Este lançamento faz parte de um pivô estratégico maior para a Microsoft. Segue-se a recente inauguração de outros modelos internos como Mai-1 e Mai-Voice-1. Isso sinaliza uma intenção clara de construir IA proprietária, reduzindo sua dependência de sua parceria com o OpenAI. O compromisso de longo prazo da empresa, dizendo:”Temos um enorme roteiro de cinco anos que estamos investindo no trimestre após trimestre. Então, acho que isso vai continuar.”

Categories: IT Info