Microsoft heeft Vibevoice uitgebracht, een nieuw open-source AI-model dat natuurlijke, lange vormaudio creëert met meerdere luidsprekers. De tool aangekondigd eind augustus, kan de tool tot 90 minuten spraak genereren met behulp van vier verschillende stemmen, waardoor het ideaal is voor prototyping podcasts of trainingsmaterialen.
In tegenstelling tot veel grote modellen is Vibevoice klein genoeg voor onderzoeksgebruik op standaardcomputers. To prevent misuse, Microsoft has built in safety features like audible AI disclaimers and a ban on creating deepfakes or spreading false information. Deze release markeert de nieuwste stap van Microsoft in de competitieve stem AI-ruimte.
De verhuizing biedt een krachtig nieuw hulpmiddel voor makers en onderzoekers, wat de groeiende ambitie van het bedrijf aangeeft om fundamentele AI-modellen in eigen huis te ontwikkelen en een open onderzoeksgemeenschap te bevorderen rond generatieve audio.
. wordt mogelijk gemaakt door een verfijnde architectuur. Het maakt gebruik van een 1,5 miljard parametermodel, dat relatief efficiënt . Hierdoor kan het op consumentenkwaliteit hardware draaien, de toegang voor onderzoekers democratiseren. Het framework is gebaseerd op een diffusiemodel voor het volgende token om audio met high-fidelity te genereren.
Volgens de technische documentatie gebruikt Vibevoice continue spraaktokenizers met een lage framesnelheid van 7,5 Hz. Deze aanpak behoudt de audiokwaliteit en stimuleert de rekenefficiëntie, een sleutelfactor bij het verwerken van lange sequenties zonder massale hardwarevereisten.
Om de dialoogstroom te beheren, werd Vibevoice getraind met behulp van Alibaba’s open-source Qwen2.5 LLM. Dit helpt bij het orkestreren van de natuurlijke beurt en handhaaft de consistentie van de luidspreker over lange duur. Potentiële toepassingen variëren van het creëren van toegankelijke educatieve inhoud tot prototyping van complexe karakterdialoog voor videogames.
ingebouwde vangrails voor verantwoordelijke open-source AI
Het herkennen van het potentieel voor misbruik heeft Microsoft aanzienlijke beveiligingen ingebed direct in vibevoice. Het bedrijf neemt een proactieve houding aan in de verantwoordelijke AI-implementatie, vooral voor een krachtige open-source tool die in staat is om menselijk gesprek na te bootsen.
Elk audiobestand dat door het model is gegenereerd, bevat een verplichte hoorbare disclaimer. Deze korte audioclip stelt expliciet dat de inhoud is gemaakt door AI. Bovendien bevat elk bestand een verborgen digitale watermerk, waardoor de oorsprong van de audio kan worden teruggevoerd op het model.
Microsoft’s licentievoorwaarden leggen strikte beperkingen op. Het model is uitgesloten van elk gebruik met betrekking tot imitatie, het maken of verspreiden van desinformatie of realtime spraakconversie voor deepfakes. Deze vangrails zijn bedoeld om de risico’s te verminderen en toch open onderzoek te bevorderen.
navigeren met een drukke stem AI-landschap
Vibevoice komt een fel concurrerende markt voor generatieve stem AI in. De multi-luidsprekers, lange-vormmogelijkheden positioneren het als een meer geavanceerd alternatief voor bestaande tools zoals Google’s Two-Voice Notebooklm audio-samenvattingen. De release onderstreept een bredere industriële race naar perfecte synthetische stemtechnologie.
Major AI Labs strijden allemaal om dominantie. Openai heeft onlangs zijn eigen spraakmogelijkheden geüpgraded met zijn realtime API. Ondertussen hebben bedrijven als Anthropic, Mistral en Amazon ook krachtige modellen gelanceerd, elk gericht op verschillende use cases van AI-assistenten tot enterprise-oplossingen.
Deze lancering maakt deel uit van een grotere strategische pivot voor Microsoft. Het volgt de recente onthulling van andere interne modellen zoals MAI-1 en Mai-Voice-1. Deze push geeft een duidelijke intentie aan om gepatenteerde AI te bouwen, waardoor zijn afhankelijkheid van zijn partnerschap met OpenAI wordt verminderd.
Over Microsoft AI CEO Mustafa Suleyman Hovevever heeft verklaard: “Ons doel is om het partnerschap te verdiepen en een grote samenwerking te hebben met Openai voor vele jaren,”Suggestie van een dual-ontwikkeling en externe samenwerking. Bevestigde de langetermijnbetrokkenheid van het bedrijf en zei:”We hebben een enorme routekaart van vijf jaar die we in kwartaal na kwartaal investeren. Dus ik denk dat dat zal doorgaan.”