Microsoft slipper vibevoice open source AI-modell for å generere multi-høyttalers podcaster

Microsoft har gitt ut Vibevoice, en ny Open-Source AI-modell som skaper naturlig, langformet lyd med flere høyttalere. Verktøyet ble kunngjort i slutten av august, og kan generere opptil 90 minutters tale ved hjelp av fire distinkte stemmer, noe som gjør det ideelt for prototypende podcaster eller treningsmateriell.

I motsetning til mange store modeller, er Vibevoice lite nok til forskningsbruk på standard datamaskiner. To prevent misuse, Microsoft has built in safety features like audible AI disclaimers and a ban on creating deepfakes or spreading false information. Denne utgivelsen markerer Microsofts siste trinn inn i den konkurrerende stemmen AI-rommet.

Flyttingen tilbyr et kraftig nytt verktøy for skapere og forskere, og signaliserer selskapets voksende ambisjon om å utvikle grunnleggende AI-modeller internt og fremme et åpent forskningssamfunn rundt generativ lyd.

Vibevoice: et multi-høyttalers podcast-studio på et GPU

vibevoice’s core’s innovasjon og naturlig. Modellen kan syntetisere opptil 90 minutter med kontinuerlig tale med opptil fire distinkte stemmer, a . Dette gjør at den kan kjøre på maskinvare for forbrukere, demokratisere tilgang for forskere. Rammeverket er avhengig av en nærliggende diffusjonsmodell for å generere høykvalitetslyd.

I henhold til dens tekniske dokumentasjon bruker Vibevoice kontinuerlig taletokenisatorer med en lav bildefrekvens på 7,5 Hz. Denne tilnærmingen bevarer lydkvalitet mens den øker beregningseffektiviteten, en nøkkelfaktor for å behandle lange sekvenser uten massive maskinvarekrav.

For å administrere dialogflyt ble vibevoice trent ved å bruke Alibabas open source Qwen2.5 LLM. Dette hjelper til med å orkestrere naturlig turntaking og opprettholder høyttalers konsistens over lange varigheter. Potensielle bruksområder spenner fra å lage tilgjengelig pedagogisk innhold til prototyping av kompleks karakterdialog for videospill.

Innebygde rekkverk for ansvarlige open source AI

Å anerkjenne potensialet for misbruk, Microsoft har innebygd betydelige sikkerhetskraft direkte i vibevoice. Selskapet tar en proaktiv holdning til ansvarlig AI-distribusjon, spesielt for et kraftig open source-verktøy som er i stand til å etterligne menneskelig samtale.

Hver lydfil generert av modellen inkluderer en obligatorisk hørbar ansvarsfraskrivelse. Dette korte lydklippet sier eksplisitt at innholdet ble opprettet av AI. Videre inneholder hver fil et skjult digitalt vannmerke, noe som gjør at opprinnelsen til lyden kan spores tilbake til modellen.

Microsofts lisensvilkår pålegger strenge begrensninger. Modellen er utestengt fra enhver bruk som involverer etterligning, oppretting eller spredning av desinformasjon eller sanntids stemmekonvertering for dypfakes. Disse rekkverkene tar sikte på å dempe risikoen mens de fremdeles fremmer åpen forskning.

Navigering av et overfylt stemme AI-landskap

Vibevoice går inn i et voldsomt konkurransedyktig marked for generativ stemme AI. Den flersport, langformede muligheten plasserer den som et mer avansert alternativ til eksisterende verktøy som Googles to-stemmer Notebooklm lydsammendrag. Utgivelsen understreker et bredere bransjeomfattende rase til perfekt syntetisk stemmeteknologi.

Major AI Labs kjemper alle om dominans. Openai oppgraderte nylig sine egne stemmefunksjoner med sin sanntids API. I mellomtiden har selskaper som Anthropic, Mistral og Amazon også lansert kraftige modeller, som hver har rettet mot forskjellige brukssaker fra AI-assistenter til bedriftsløsninger.

Denne lanseringen er del av en større strategisk pivot for Microsoft. Det følger den nylige avdukingen av andre interne modeller som MAI-1 og Mai-Voice-1. Dette push signaliserer en klar hensikt å bygge proprietær AI, noe som reduserer sin avhengighet av sitt partnerskap med Openai.

Om Microsoft AI-administrerende direktør Mustafa Suleyman Hovever har uttalt, “Målet vårt er å utdype Partnership og sørge for at vi har et stort utvikling og eksternt bekreftet selskapets langsiktige forpliktelse og sa:”Vi har et enormt femårig veikart som vi investerer i kvartal etter kvartal. Så jeg tror det kommer til å fortsette.”

Microsoft slipper vibevoice open source AI-modell for å generere multi-høyttalers podcaster

Published by All Things Windows on September 3, 2025

Vibevoice: et multi-høyttalers podcast-studio på et GPU

Innebygde rekkverk for ansvarlige open source AI

Navigering av et overfylt stemme AI-landskap

IT Info

Google treffer med $ 425 millioner bot for å krenke brukerens personvern ved å spore funksjonshemmede kontoer

IT Info

Hvordan slå av skjermen automatisk når du låser Windows

IT Info

Verdivurdering av AI-merking Jobmarked Mercor Soars til $ 10B midt i bedriftens spionasje-søksmål fra rival skala AI

Microsoft slipper vibevoice open source AI-modell for å generere multi-høyttalers podcaster

Published by All Things Windows on September 3, 2025

Vibevoice: et multi-høyttalers podcast-studio på et GPU

Innebygde rekkverk for ansvarlige open source AI

Navigering av et overfylt stemme AI-landskap

Related Posts

IT Info

Google treffer med $ 425 millioner bot for å krenke brukerens personvern ved å spore funksjonshemmede kontoer

IT Info

Hvordan slå av skjermen automatisk når du låser Windows

IT Info

Verdivurdering av AI-merking Jobmarked Mercor Soars til $ 10B midt i bedriftens spionasje-søksmål fra rival skala AI