Microsoft telah merilis Vibevoice, model AI open-source baru yang menciptakan audio alami alami dengan banyak speaker. Diumumkan pada akhir Agustus, alat ini dapat menghasilkan pidato hingga 90 menit menggunakan empat suara yang berbeda, membuatnya ideal untuk membuat prototipe podcast atau bahan pelatihan.

Tidak seperti banyak model besar, Vibevoice cukup kecil untuk penggunaan penelitian pada komputer standar. Untuk mencegah penyalahgunaan, Microsoft telah membangun fitur keselamatan seperti penafian AI yang dapat didengar dan

Langkah ini menawarkan alat baru yang kuat untuk pencipta dan peneliti, menandakan ambisi perusahaan yang berkembang untuk mengembangkan model AI dasar di rumah dan menumbuhkan komunitas riset terbuka di sekitar audio generatif.

VibeVoice: A Multi-Speaker Podcast Studio on a GPU

inovasi inti Vibevoice terletak pada kemampuannya untuk menghasilkan audio percakapan multi-speaker yang diperluas yang tetap koheren dan alami. Model ini dapat mensintesis hingga 90 menit pidato berkelanjutan dengan hingga empat suara yang berbeda, a

Menurut dokumentasi teknisnya, Vibevoice menggunakan tokenizer ucapan kontinu pada laju bingkai rendah 7,5 Hz. Pendekatan ini menjaga kualitas audio sambil meningkatkan efisiensi komputasi, faktor kunci dalam memproses urutan panjang tanpa persyaratan perangkat keras besar-besaran.

Untuk mengelola aliran dialog, Vibevoice dilatih menggunakan QWEN2.5 llm open-source Alibaba. Ini membantu mengatur pengambilan belokan alami dan mempertahankan konsistensi speaker selama jangka panjang. Penggunaan potensial berkisar dari membuat konten pendidikan yang dapat diakses hingga membuat prototipe dialog karakter kompleks untuk video game.

pagar pembangun untuk AI open-source yang bertanggung jawab

Mengenali potensi penyalahgunaan, Microsoft telah menyematkan perlindungan signifikan secara langsung ke Vibevoice. Perusahaan ini mengambil sikap proaktif tentang penyebaran AI yang bertanggung jawab, terutama untuk alat open-source yang kuat yang mampu meniru percakapan manusia.

Setiap file audio yang dihasilkan oleh model termasuk penafian yang dapat didengar wajib. Klip audio singkat ini secara eksplisit menyatakan bahwa konten tersebut dibuat oleh AI. Selain itu, setiap file berisi tanda air digital tersembunyi, memungkinkan asal audio untuk ditelusuri kembali ke model.

Istilah lisensi Microsoft memberlakukan batasan yang ketat. Model ini dilarang dari penggunaan apa pun yang melibatkan peniruan, penciptaan atau penyebaran disinformasi, atau konversi suara waktu-nyata untuk Deepfake. Pagar ini bertujuan untuk mengurangi risiko sambil tetap menumbuhkan penelitian terbuka.

menavigasi lanskap AI suara yang ramai

Vibevoice memasuki pasar yang sangat kompetitif untuk AI suara generatif. Kemampuan multi-speaker, bentuk panjang memposisikannya sebagai alternatif yang lebih canggih untuk alat yang ada seperti ringkasan audio notebooklm dua suara Google. Rilis ini menggarisbawahi perlombaan industri yang lebih luas untuk menyempurnakan teknologi suara sintetis.

Laboratorium AI utama semuanya berlomba-lomba untuk mendominasi. Openai baru-baru ini meningkatkan kemampuan suaranya sendiri dengan API realtime. Sementara itu, perusahaan seperti Anthropic, Mistral, dan Amazon juga telah meluncurkan model yang kuat, masing-masing menargetkan kasus penggunaan yang berbeda dari asisten AI ke solusi perusahaan.

Peluncuran ini adalah bagian dari pivot strategis yang lebih besar untuk Microsoft. Ini mengikuti pembukaan model in-house lainnya baru-baru ini seperti MAI-1 dan MAI-VOICE-1. This push signals a clear intent to build proprietary AI, reducing its reliance on its partnership with OpenAI.

About Microsoft AI CEO Mustafa Suleyman hovever has stated, “our goal is to deepen the partnership and make sure that we have a great collaboration with OpenAI for many, many years to come,”suggesting a dual strategy of internal development and external collaboration.

He also mengkonfirmasi komitmen jangka panjang perusahaan, dengan mengatakan,”Kami memiliki peta jalan lima tahun yang sangat besar yang kami investasikan pada kuartal demi kuartal. Jadi saya pikir itu akan berlanjut.”