Microsoft telah mengeluarkan VibeVoice, model AI sumber terbuka baru yang mencipta audio semulajadi, panjang dengan pembesar suara. Diumumkan pada akhir bulan Ogos, alat ini boleh menjana sehingga 90 minit ucapan menggunakan empat suara yang berbeza, menjadikannya sesuai untuk prototaip podcast atau bahan latihan.
Tidak seperti banyak model besar, Vibevoice cukup kecil untuk kegunaan penyelidikan pada komputer standard. Untuk mengelakkan penyalahgunaan, Microsoft telah membina ciri-ciri keselamatan seperti penafian AI yang boleh didengar dan
vibevoice: studio podcast multi-speaker pada gpu
Ini dimungkinkan oleh seni bina yang canggih. Ia menggunakan model parameter 1.5 bilion, iaitu relatively cekap . Ini membolehkan ia berjalan pada perkakasan gred pengguna, mendemokrasikan akses untuk penyelidik. Rangka kerja ini bergantung pada model penyebaran yang akan datang untuk menghasilkan audio kesetiaan tinggi.
Menurut dokumentasi teknikalnya, Vibevoice menggunakan tokenizer ucapan berterusan pada kadar bingkai rendah 7.5 Hz. Pendekatan ini mengekalkan kualiti audio sambil meningkatkan kecekapan pengiraan, faktor utama dalam memproses urutan panjang tanpa keperluan perkakasan besar-besaran. Ini membantu mengatur giliran semula jadi dan mengekalkan konsistensi penceramah sepanjang tempoh yang panjang. Kegunaan berpotensi berkisar daripada mewujudkan kandungan pendidikan yang boleh diakses untuk prototaip dialog watak kompleks untuk permainan video.
Guarrails terbina dalam untuk sumber terbuka yang bertanggungjawab AI
Syarikat itu mengambil pendirian proaktif mengenai penggunaan AI yang bertanggungjawab, terutamanya untuk alat sumber terbuka yang kuat yang mampu meniru perbualan manusia.
Setiap fail audio yang dihasilkan oleh model termasuk penafian yang boleh didengar wajib. Klip audio pendek ini secara jelas menyatakan bahawa kandungan itu dicipta oleh AI. Selain itu, setiap fail mengandungi tanda air digital tersembunyi, yang membolehkan asal audio dikesan kembali ke model.
Syarat pelesenan Microsoft mengenakan batasan yang ketat. Model ini dihalang daripada apa-apa penggunaan yang melibatkan penyamaran, penciptaan atau penyebaran maklumat, atau penukaran suara masa nyata untuk Deepfake. Guardrails ini bertujuan untuk mengurangkan risiko semasa masih memupuk penyelidikan terbuka.
Menavigasi suara AI Landscape
Keupayaan berbilang, bentuk panjangnya meletakkannya sebagai alternatif yang lebih maju kepada alat yang sedia ada seperti ringkasan audio notebookLM dua suara Google. Pelepasan ini menggariskan perlumbaan industri yang lebih luas untuk menyempurnakan teknologi suara sintetik.
Makmal AI utama semuanya bersaing untuk dominasi. Openai baru-baru ini menaik taraf keupayaan suara sendiri dengan API Realtime. Sementara itu, syarikat-syarikat seperti Anthropic, Mistral, dan Amazon juga telah melancarkan model yang kuat, masing-masing mensasarkan kes-kes penggunaan yang berbeza dari pembantu AI kepada penyelesaian perusahaan.
Pelancaran ini adalah sebahagian daripada pivot strategik yang lebih besar untuk Microsoft. Ia mengikuti pembukaan model dalaman lain seperti MAI-1 dan MAI-VOICE-1. Ini mendorong menandakan niat yang jelas untuk membina AI proprietari, mengurangkan pergantungannya pada perkongsiannya dengan OpenAI. Mengesahkan komitmen jangka panjang syarikat itu, berkata,”Kami mempunyai pelan hala tuju lima tahun yang kami melabur pada suku selepas suku tahun. Jadi, saya fikir itu akan berterusan.”