Microsoft a lansat Vibevoice, un nou model AI open-source, care creează un sunet natural, cu formă lungă, cu mai multe boxe. Anunțat la sfârșitul lunii august, instrumentul poate genera până la 90 de minute de vorbire folosind patru voci distincte, ceea ce îl face ideal pentru prototiparea podcast-urilor sau materiale de instruire.
Spre deosebire de multe modele mari, Vibevoice este suficient de mic pentru utilizarea cercetării pe calculatoarele standard. Pentru a preveni utilizarea greșită, Microsoft a construit caracteristici de siguranță, cum ar fi audibilii AI Renunțarea la AI și A Ban on creând profunzimi sau răspândire a informațiilor Această versiune marchează cel mai recent pas al Microsoft în spațiul competitiv Voice AI.
mișcarea oferă un nou instrument puternic pentru creatori și cercetători, semnalând ambiția din ce în ce mai mare a companiei de a dezvolta modele de AI fundamentale în casă și de a încuraja o comunitate de cercetare deschisă în jurul audio generativ.
Vibevoice: un studio de podcast cu mai multe vorbitori pe un gpu
Vibevoice de inovație de bază coerent și natural. Modelul poate sintetiza până la 90 de minute de vorbire continuă cu până la patru voci distincte, a This este un efect semnificativ pentru tehnologie audio-audio . Posibil printr-o arhitectură sofisticată. Utilizează un model de 1,5 miliarde de parametri, care este relativ eficient . Acest lucru îi permite să funcționeze pe hardware de calitate pentru consumatori, democratizând accesul pentru cercetători. Cadrul se bazează pe un model de difuzie următor-token pentru a genera audio de înaltă fidelitate.
în conformitate cu documentația sa tehnică, Vibevoice folosește tokenizers de vorbire continuă la o rată de cadru scăzută de 7,5 Hz. Această abordare păstrează calitatea audio în timp ce crește eficiența calculațională, un factor cheie în procesarea secvențelor lungi fără cerințe hardware masive.
Pentru a gestiona fluxul de dialog, Vibevoice a fost instruit folosind open-source QWEN2.5 LLM de la Alibaba. Acest lucru ajută la orchestrarea preluării naturale a întoarcerii și menține consistența vorbitorului pe durate lungi. Utilizările potențiale variază de la crearea de conținut educațional accesibil, până la prototiparea dialogului complex de personaje pentru jocurile video.
Buardrail-uri încorporate pentru open-source responsabile AI
Recunoașterea potențialului de utilizare necorespunzătoare, Microsoft a încorporat garanții semnificative direct în vibrație. Compania ia o poziție proactivă cu privire la implementarea AI responsabilă, în special pentru un instrument puternic open-source capabil să imite conversația umană.
Fiecare fișier audio generat de model include o exonerare audibilă obligatorie. Acest scurt clip audio afirmă în mod explicit că conținutul a fost creat de AI. În plus, fiecare fișier conține un filigran digital ascuns, permițând ca originea audio să fie identificată la model.
Termenii de licențiere ale Microsoft impun limitări stricte. Modelul este împiedicat de orice utilizare care implică o impersonare, crearea sau răspândirea dezinformării sau conversia vocii în timp real pentru DeepFakes. Aceste gardă își propun să atenueze riscurile, în timp ce încurajează în continuare cercetări deschise.
navigând pe un peisaj AI Voice AI
Vibevoice intră într-o piață de voce generativă. Capabilitățile sale multi-difuzoare, de formare lungă, o poziționează ca o alternativă mai avansată la instrumentele existente, cum ar fi rezumatele audio cu două voci ale Google. Eliberarea subliniază o cursă mai largă la nivelul întregii industrii, pentru a perfecționa tehnologia vocală sintetică.
laboratoarele majore AI sunt toate concurente pentru dominare. Openai și-a modernizat recent propriile capacități vocale cu API-ul său în timp real. Între timp, companii precum Antropic, Mistral și Amazon au lansat, de asemenea, modele puternice, fiecare vizând cazuri de utilizare diferite de la asistenții AI la Enterprise Solutions.
Această lansare face parte dintr-un pivot strategic mai mare pentru Microsoft. Urmează dezvăluirea recentă a altor modele interne precum MAI-1 și Mai-voice-1. Această apăsare semnalează o intenție clară de a construi AI-ul proprietar, reducându-și dependența de parteneriatul său cu OpenAI.
despre CEO-ul Microsoft AI, Mustafa Suleyman Hovever, a declarat: „Scopul nostru este să aprofundăm parteneriatul și să ne asigurăm că avem o mare colaborare cu OpenAI pentru mulți ani, pentru a veni,„ Sugestând o strategie duală de dezvoltare internă și de o deschidere a multor ani. De asemenea, a confirmat angajamentul pe termen lung al companiei, spunând: „Avem o foaie de parcurs enormă de cinci ani pe care o investim în trimestru după trimestru. Deci cred că va continua.”