Microsoft har gitt ut Vibevoice, en ny Open-Source AI-modell som skaper naturlig, langformet lyd med flere høyttalere. Verktøyet ble kunngjort i slutten av august, og kan generere opptil 90 minutters tale ved hjelp av fire distinkte stemmer, noe som gjør det ideelt for prototypende podcaster eller treningsmateriell.
I motsetning til mange store modeller, er Vibevoice lite nok til forskningsbruk på standard datamaskiner. To prevent misuse, Microsoft has built in safety features like audible AI disclaimers and a ban on creating deepfakes or spreading false information. Denne utgivelsen markerer Microsofts siste trinn inn i den konkurrerende stemmen AI-rommet.
Flyttingen tilbyr et kraftig nytt verktøy for skapere og forskere, og signaliserer selskapets voksende ambisjon om å utvikle grunnleggende AI-modeller internt og fremme et åpent forskningssamfunn rundt generativ lyd.
Vibevoice: et multi-høyttalers podcast-studio på et GPU
vibevoice’s core’s innovasjon og naturlig. Modellen kan syntetisere opptil 90 minutter med kontinuerlig tale med opptil fire distinkte stemmer, a Dette er muliggjort av en sofistikert arkitektur. Den bruker en parametermodell på 1,5 milliarder dollar, som er
For å administrere dialogflyt ble vibevoice trent ved å bruke Alibabas open source Qwen2.5 LLM. Dette hjelper til med å orkestrere naturlig turntaking og opprettholder høyttalers konsistens over lange varigheter. Potensielle bruksområder spenner fra å lage tilgjengelig pedagogisk innhold til prototyping av kompleks karakterdialog for videospill.
Innebygde rekkverk for ansvarlige open source AI
Å anerkjenne potensialet for misbruk, Microsoft har innebygd betydelige sikkerhetskraft direkte i vibevoice. Selskapet tar en proaktiv holdning til ansvarlig AI-distribusjon, spesielt for et kraftig open source-verktøy som er i stand til å etterligne menneskelig samtale.
Hver lydfil generert av modellen inkluderer en obligatorisk hørbar ansvarsfraskrivelse. Dette korte lydklippet sier eksplisitt at innholdet ble opprettet av AI. Videre inneholder hver fil et skjult digitalt vannmerke, noe som gjør at opprinnelsen til lyden kan spores tilbake til modellen.
Microsofts lisensvilkår pålegger strenge begrensninger. Modellen er utestengt fra enhver bruk som involverer etterligning, oppretting eller spredning av desinformasjon eller sanntids stemmekonvertering for dypfakes. Disse rekkverkene tar sikte på å dempe risikoen mens de fremdeles fremmer åpen forskning.
Navigering av et overfylt stemme AI-landskap
Vibevoice går inn i et voldsomt konkurransedyktig marked for generativ stemme AI. Den flersport, langformede muligheten plasserer den som et mer avansert alternativ til eksisterende verktøy som Googles to-stemmer Notebooklm lydsammendrag. Utgivelsen understreker et bredere bransjeomfattende rase til perfekt syntetisk stemmeteknologi.
Major AI Labs kjemper alle om dominans. Openai oppgraderte nylig sine egne stemmefunksjoner med sin sanntids API. I mellomtiden har selskaper som Anthropic, Mistral og Amazon også lansert kraftige modeller, som hver har rettet mot forskjellige brukssaker fra AI-assistenter til bedriftsløsninger.
Denne lanseringen er del av en større strategisk pivot for Microsoft. Det følger den nylige avdukingen av andre interne modeller som MAI-1 og Mai-Voice-1. Dette push signaliserer en klar hensikt å bygge proprietær AI, noe som reduserer sin avhengighet av sitt partnerskap med Openai.
Om Microsoft AI-administrerende direktør Mustafa Suleyman Hovever har uttalt, “Målet vårt er å utdype Partnership og sørge for at vi har et stort utvikling og eksternt bekreftet selskapets langsiktige forpliktelse og sa:”Vi har et enormt femårig veikart som vi investerer i kvartal etter kvartal. Så jeg tror det kommer til å fortsette.”