Ang
Microsoft ay naglabas ng Vibevoice, isang bagong open-source na modelo ng AI na lumilikha ng natural, mahabang form na audio na may maraming mga nagsasalita. Inihayag sa huling bahagi ng Agosto, ang tool ay maaaring makabuo ng hanggang sa 90 minuto ng pagsasalita gamit ang apat na natatanging tinig, na ginagawang perpekto para sa mga prototyping podcast o mga materyales sa pagsasanay. Upang maiwasan ang maling paggamit, ang Microsoft ay nagtayo sa mga tampok na kaligtasan tulad ng naririnig na mga disclaimer ng AI at isang
vibevoice: isang multi-speaker podcast studio sa isang gpu Likas. Ang modelo ay maaaring synthesize hanggang sa 90 minuto ng patuloy na pagsasalita na may hanggang sa apat na natatanging tinig, isang medyo mahusay . Pinapayagan nitong tumakbo sa hardware na grade ng consumer, democratizing access para sa mga mananaliksik. Ang balangkas ay nakasalalay sa isang susunod na modelo ng pagsasabog upang makabuo ng high-fidelity audio. Ang pamamaraang ito ay nagpapanatili ng kalidad ng audio habang pinapalakas ang kahusayan sa computational, isang pangunahing kadahilanan sa pagproseso ng mga mahabang pagkakasunud-sunod nang walang napakalaking mga kinakailangan sa hardware. Makakatulong ito sa pag-orkestra ng natural na pag-turn-taking at pinapanatili ang pagkakapare-pareho ng speaker sa mahabang tagal. Ang mga potensyal na gumagamit ay saklaw mula sa paglikha ng naa-access na nilalaman ng pang-edukasyon sa prototyping complex character na diyalogo para sa mga video game. Ang kumpanya ay kumukuha ng isang aktibong tindig sa responsableng paglawak ng AI, lalo na para sa isang malakas na tool na open-source na may kakayahang gayahin ang pag-uusap ng tao. Ang maikling audio clip na ito ay malinaw na nagsasabi na ang nilalaman ay nilikha ng AI. Bukod dito, ang bawat file ay naglalaman ng isang nakatagong digital watermark, na nagpapahintulot sa pinagmulan ng audio na masubaybayan pabalik sa modelo.
Ang mga termino ng paglilisensya ng Microsoft ay nagpapataw ng mahigpit na mga limitasyon. Ang modelo ay ipinagbabawal mula sa anumang paggamit na kinasasangkutan ng impersonation, ang paglikha o pagkalat ng disinformation, o real-time na conversion ng boses para sa Deepfakes. Ang mga guardrail na ito ay naglalayong mapagaan ang mga panganib habang pinupukaw pa rin ang bukas na pananaliksik. Ang multi-speaker, pangmatagalang mga kakayahan na posisyon nito bilang isang mas advanced na alternatibo sa mga umiiral na tool tulad ng dalawang-boses na notebook ng mga buod ng Google. Ang paglabas ay binibigyang diin ang isang mas malawak na lahi ng industriya sa perpektong teknolohiya ng sintetiko. Kamakailan lamang ay na-upgrade ng Openai ang sarili nitong mga kakayahan sa boses kasama ang realtime API. Samantala, ang mga kumpanya tulad ng Anthropic, Mistral, at Amazon ay naglunsad din ng mga makapangyarihang modelo, ang bawat isa ay nagta-target ng iba’t ibang mga kaso ng paggamit mula sa mga katulong sa AI hanggang sa mga solusyon sa negosyo.
Ang paglulunsad na ito ay bahagi ng isang mas malaking madiskarteng pivot para sa Microsoft. Sinusundan nito ang kamakailang pag-unve ng iba pang mga modelo ng in-house tulad ng MAI-1 at MAI-VOICE-1. Ang pagtulak na ito ay nagpapahiwatig ng isang malinaw na hangarin na bumuo ng pagmamay-ari ng AI, na binabawasan ang pag-asa sa pakikipagtulungan nito sa OpenAI. Kinumpirma din ang pangmatagalang pangako ng kumpanya, na nagsasabing,”Mayroon kaming napakalaking limang taong roadmap na namumuhunan kami sa quarter pagkatapos ng quarter. Kaya sa palagay ko ay magpapatuloy ito.”