Microsoft a publié VibeVoice, un nouveau modèle d’IA open source qui crée un audio naturel et longue avec plusieurs haut-parleurs. Annoncé fin août, l’outil peut générer jusqu’à 90 minutes de discours en utilisant quatre voix distinctes, ce qui le rend idéal pour les podcasts de prototypage ou les documents de formation.

Contrairement à de nombreux grands modèles, la vibevoice est suffisamment petite pour une utilisation de la recherche sur des ordinateurs standard. Pour éviter une mauvaise utilisation, Microsoft a intégré des fonctionnalités de sécurité telles que des avertissements AI audibles et un bandre sur de profondeurs Cette version marque la dernière étape de Microsoft dans l’espace de l’IA de la voix compétitive.

Le mouvement offre un nouvel outil puissant pour les créateurs et les chercheurs, signalant l’ambition croissante de l’entreprise de développer des modèles d’IA fondamentaux en interne et de favoriser une communauté de recherche ouverte autour de l’audio génératif.

vibevoice: un studio de podcast multi-ordres sur un GPU

vibevoice de l’innovation de base dans sa capacité à produire une conversation multipliée multipliée, une conversation multipliée, une conversation multipliée, une conversation multipliée, une conversation multipliée, une conversation multipliée, une conversation multipliée, une conversation multipliée, une conversation multipliée, a été projetée, une conversation multipliée Multimel cohérent et naturel. Le modèle peut synthétiser jusqu’à 90 minutes de discours continu avec jusqu’à quatre voix distinctes, un relativement efficace . Cela lui permet de fonctionner sur du matériel de base, démocratisant l’accès aux chercheurs. Le cadre s’appuie sur un modèle de diffusion à la prochaine fois pour générer l’audio à haute fidélité.

Selon sa documentation technique, Vibevoice utilise des tokeniseurs de parole continue à une faible fréquence d’images de 7,5 Hz. Cette approche préserve la qualité de l’audio tout en augmentant l’efficacité de calcul, un facteur clé dans le traitement des séquences longues sans exigences matérielles massives.

Pour gérer le flux de dialogue, ViBevoice a été formé à l’aide de LLM de QWEN2.5 open-source d’Alibaba. Cela aide à orchestrer la prise naturelle de tournage et maintient la cohérence des haut-parleurs sur de longues durées. Les utilisations potentielles varient de la création de contenu éducatif accessible au prototypage du dialogue de personnages complexes pour les jeux vidéo.

Guar-gardiens intégrés pour une source d’ouverture responsable

Reconnaissant le potentiel d’utilisation abusive, Microsoft a intégré des garanties significatives directement dans les sauvegardes significatives directement dans les vibevoice. La société adopte une position proactive sur le déploiement responsable de l’IA, en particulier pour un puissant outil open-source capable d’imiter une conversation humaine.

Chaque fichier audio généré par le modèle comprend un avertissement audible obligatoire. Ce court clip audio indique explicitement que le contenu a été créé par AI. En outre, chaque fichier contient un filigrane numérique caché, permettant à l’origine de l’audio d’être retracée au modèle.

Les termes de licence de Microsoft imposent des limitations strictes. Le modèle est exclu de toute utilisation impliquant une usurpation d’identité, de la création ou de la propagation de la désinformation, ou de la conversion vocale en temps réel pour Deep Fakes. Ces garde-corps visent à atténuer les risques tout en favorisant des recherches ouvertes.

naviguant dans un paysage de l’IA de voix bondé

vibevoice entre un marché farouchement compétitif pour la voix générative AI. Ses capacités multi-haut-parleurs longues le positionnent comme une alternative plus avancée aux outils existants tels que les résumés audio à deux voix de Google. La version souligne une course plus large à l’échelle de l’industrie pour perfectionner la technologie vocale synthétique.

Les principaux laboratoires AI sont tous en lice pour la domination. Openai a récemment mis à niveau ses propres capacités vocales avec son API en temps réel. Pendant ce temps, des entreprises comme Anthropic, Mistral et Amazon ont également lancé des modèles puissants, chacun ciblant différents cas d’utilisation, des assistants d’IA aux solutions d’entreprise.

Ce lancement fait partie d’un pivot stratégique plus large pour Microsoft. Il suit le dévoilement récent d’autres modèles internes comme Mai-1 et Mai-Voice-1. Cette poussée signale une intention claire de construire une IA propriétaire, réduisant sa dépendance à l’égard de son partenariat avec Openai.

À propos de la PDG de Microsoft AI, Mustafa Suleyman Hovever a déclaré: «Notre objectif est d’approfondir le partenariat et de nous assurer que nous avons une grande collaboration avec l’Openai pour de nombreuses années. a confirmé l’engagement à long terme de l’entreprise, disant:”Nous avons une énorme feuille de route cinq ans dans laquelle nous investissons dans le trimestre après trimestre. Je pense donc que ça va continuer.”

Categories: IT Info