Microsoft har släppt Vibevoice, en ny AI-modell med öppen källkod som skapar naturligt, långformat ljud med flera högtalare. Tillkännagivandet i slutet av augusti kan verktyget generera upp till 90 minuters tal med fyra distinkta röster, vilket gör det idealiskt för prototypning av podcast eller träningsmaterial.
Till skillnad från många stora modeller är vibevoice tillräckligt liten för forskningsanvändning på standarddatorer. För att förhindra missbruk har Microsoft inbyggda säkerhetsfunktioner som Audible AI-ansvarsfriskrivningar och A
VibeVoice: A Multi-Speaker Podcast Studio on a GPU
Vibevoices kärninnovation ligger i dess förmåga att producera utökat, multi-talare-konversationsljud som förblir sammanhängande och naturliga. Modellen kan syntetisera upp till 90 minuters kontinuerligt tal med upp till fyra distinkta röster, a möjliggjort av en sofistikerad arkitektur. Den använder en parametermodell på 1,5 miljarder, som är relativt effektiv . Detta gör att den kan köras på hårdvara för konsumentklass och demokratisera tillgången för forskare. Ramverket förlitar sig på en Next-Token-diffusionsmodell för att generera ljud med hög trohet.
Enligt dess tekniska dokumentation använder Vibevoice kontinuerliga taltokenizers med en låg bildhastighet på 7,5 Hz. Detta tillvägagångssätt bevarar ljudkvalitet samtidigt som den ökade beräkningseffektiviteten, en nyckelfaktor för att bearbeta långa sekvenser utan massiva hårdvarukrav.
För att hantera dialogflödet tränades Vibevoice med Alibabas Open-Source Qwen2.5 LLM. Detta hjälper till att orkestrera naturligt vändning och upprätthålla högtalarens konsistens under långa varaktigheter. Potentiella användningar sträcker sig från att skapa tillgängligt utbildningsinnehåll till prototypning komplex karaktärsdialog för videospel.
inbyggda skyddsräcken för ansvarsfulla öppna källkods AI
erkänner potentialen för missbruk, har Microsoft inbäddat betydande skyddsåtgärder direkt i vibevoice. Företaget tar en proaktiv inställning till ansvarsfull AI-distribution, särskilt för ett kraftfullt open source-verktyg som kan efterlikna mänsklig konversation.
Varje ljudfil som genereras av modellen innehåller en obligatorisk hörbar ansvarsfriskrivning. Detta korta ljudklipp säger uttryckligen att innehållet skapades av AI. Vidare innehåller varje fil ett doldt digitalt vattenmärke, vilket möjliggör att ljudets ursprung spåras tillbaka till modellen.
Microsofts licensvillkor medför strikta begränsningar. Modellen är utestängd från alla användningar som involverar efterlikning, skapandet eller spridningen av desinformation eller realtidsröstomvandling för Deepfakes. Dessa skyddsräcken syftar till att mildra riskerna samtidigt som de främjar öppen forskning.
navigerar i en trångt röst AI-landskap
Vibevoice går in på en hårt konkurrenskraftig marknad för generativ röst AI. Dess multi-högtalare, långformade funktioner placerar den som ett mer avancerat alternativ till befintliga verktyg som Googles två-röst NoteBookLM-ljudsammanfattningar. Utgivningen understryker ett bredare branschövergripande lopp för att perfekt syntetisk röstteknik.
Major AI-laboratorier kämpar för dominans. OpenAI uppgraderade nyligen sina egna röstfunktioner med sitt API i realtid. Samtidigt har företag som Anthropic, Mistral och Amazon också lanserat kraftfulla modeller, var och en riktar sig till olika användningsfall från AI-assistenter till Enterprise Solutions.
Denna lansering är en del av en större strategisk pivot för Microsoft. Det följer den senaste avslöjandet av andra interna modeller som MAI-1 och MAI-VOICE-1. Denna push signalerar en tydlig avsikt att bygga äganderätt till AI, vilket minskar sitt beroende av sitt partnerskap med OpenAI.
om Microsoft AI VD Mustafa Suleyman Hovever har sagt,”Vårt mål är att fördjupa partnerskapet och se till att vi har ett stort samarbete med Openai för många år, många år till kommer,”föreslår en form för att fördjupa sig och se till att vi har ett stort samarbete med Openai för många år, många år till kommer,”föreslår en form för att fördjupa det interna utvecklingen. Företagets långsiktiga åtagande och säger:”Vi har en enorm femårig färdplan som vi investerar i kvartal efter kvartalet. Så jag tror att det kommer att fortsätta.”