Xiaomi membuat langkah signifikan dalam arena AI Voice dengan rilis Midashenglm-7b, model audio open-source yang kuat sekarang tersedia untuk pengembang di seluruh dunia. Menjatuhkan platform seperti memeluk wajah pada 2 Agustus , model ini secara langsung menantang sistem kepemilikan dari Google dan Openai.
Ini menawarkan kinerja superior dengan efisiensi utama. Tidak seperti banyak pesaing, Midashenglm menggunakan metode pelatihan berbasis teks yang inovatif untuk pemahaman yang lebih holistik tentang pidato, musik, dan suara sekitar. Dengan merilisnya di bawah lisensi Apache 2.0 yang ramah secara komersial, Xiaomi bertujuan untuk mendemokratisasi audio AIDo canggih.
Rilis ini memposisikan perusahaan untuk menangkap segmen utama pasar yang sedang berkembang, menyoroti aplikasi segera di rumah pintar Xiaomi dan lini produk produk otomotif. Platform Dasheng yang mendasari sudah ada di lebih dari 30 aplikasi.
Kinerja baru dan kupu-kupu
phongion-kupuoner dan kupu-kupu
kuprok baru dalam jubah baru dan efisiensioner> Midashenglm-7b bukan hanya entri lain ke bidang AI Voice AI yang ramai; Ini adalah tantangan langsung yang didukung oleh serangkaian metrik kinerja yang kuat. Tolok ukur terperinci perusahaan menunjukkan model parameter 7-miliar secara signifikan mengungguli saingan mapan seperti QWEN2.5-OMNI-7B dan Kimi-Audio-instruksi di beragam tugas pemahaman audio. Dalam captioning audio, misalnya, skor ini secara substansial lebih tinggi pada dataset seperti MusicCaps dan AutoACD, menunjukkan kemampuan yang lebih bernuansa untuk menggambarkan adegan audio yang kompleks.
Kesenjangan kinerja sangat mencolok dalam klasifikasi audio. Pada patokan VGGSound, Midashenglm mencapai akurasi 52,11%, sedangkan pesaing terdekatnya, Qwen2.5-OMNI-7B, skor kurang dari 1%. Ini menunjukkan kemampuan yang unggul dalam mengidentifikasi dan mengkategorikan suara lingkungan yang beragam, fungsi kritis untuk rumah pintar dan aplikasi otomotif. Model ini juga menunjukkan hasil terkemuka dalam identifikasi pembicara dan bahasa pada tolok ukur seperti voxceleb1 dan voxlingua107, memperkuat desain holistiknya.
Di luar kinerja mentah, klaim efisiensi model sangat agresif dan menargetkan titik nyeri utama bagi pengembang: biaya penempatan dan latensi. Xiaomi melaporkan speedup throughput 3.2x pada ukuran batch yang sebanding dan waktu-ke-first yang merupakan hingga empat kali lebih cepat dari Qwen model . Efisiensi ini bukan hanya metrik teoretis; Ini diterjemahkan ke biaya operasional yang lebih rendah dan pengalaman pengguna yang lebih responsif. Yang terpenting, model ini dapat memproses ukuran batch yang jauh lebih besar-hingga 512 pada GPU 80GB di mana pesaing gagal-tidak mengunci potensi peningkatan throughput 20x yang sangat penting untuk layanan dunia nyata yang dapat diskalakan.
Namun, kinerja model dalam pengenalan ucapan otomatis (ASR) menyajikan gambaran yang lebih bernuansa. Sementara itu menunjukkan hasil yang kuat dan kompetitif dalam bahasa Cina dan beberapa bahasa lain seperti Indonesia dan Thailand, itu sedikit membuntuti model khusus pada beberapa tolok ukur berbahasa Inggris seperti Librispeech. This trade-off appears to be a direct result of its broader, caption-focused training, which prioritizes holistic audio understanding over pure transcription, a strategic choice that sets it apart from many ASR-first competitors.
Beyond Transcription: A Novel Caption-Based Approach
The model’s technical architecture reveals a strategic departure from industry norms, a move that prioritizes holistic audio intelligence melalui transkripsi sederhana. Alih-alih mengandalkan pengenalan ucapan otomatis tradisional (ASR) untuk pelatihan, Midashenglm dibangun di atas metode”Keterangan Audio Umum”baru. Pendekatan inovatif ini ditenagai oleh ACAVCAPS, dataset 38.662 jam yang besar dan dikuratori yang berasal dari repositori audio ACAV100M sumber terbuka.
Dasar pemikiran Xiaomi untuk meninggalkan pendekatan ASR-FIRST jelas. Sebagaimana dirinci dalam dokumentasi teknisnya, sistem ASR tradisional membuang sejumlah besar informasi non-pidato, seperti musik dan suara lingkungan. Mereka juga kehilangan isyarat paralinguistik penting seperti emosi pembicara dan sifat akustik. Sebaliknya, keterangan dapat memanfaatkan semua konten audio, menangkap konteks global dari rekaman, dan memberikan sinyal pembelajaran yang lebih menantang untuk model, memaksanya untuk mengembangkan pemahaman yang lebih dalam.
Penciptaan dataset ACAVCAPS adalah usaha yang signifikan dengan sendirinya. Setiap keterangan dihasilkan melalui proses tiga langkah yang canggih: analisis awal oleh beberapa model ahli (untuk ucapan, musik, dan akustik), diikuti oleh penalaran yang digerakkan LLM untuk mensintesis metadata, dan akhirnya, tahap penyaringan untuk memastikan konsistensi audio-teks yang tinggi. Pipa yang ketat ini memastikan data pelatihan kaya, beragam, dan secara akurat mencerminkan konteks penuh audio.
Dataset unik ini dimasukkan ke dalam arsitektur yang menggabungkan dua komponen yang kuat: Encoder audio open-source milik Xiaomi sendiri, yang dikreditkan sebagai”Core Foundation”dari kinerja model, dan qwen2.5-omni-7b Model pemikir , yang berfungsi sebagai decoder dasar. Kerangka kerja terpadu ini memungkinkan sistem untuk menangani ucapan, suara lingkungan, dan elemen musik secara bersamaan, menafsirkannya sebagai keseluruhan yang kohesif daripada aliran data yang terpisah.
Fokus pada pemahaman kontekstual yang lebih dalam dan selaras dengan tren industri yang semakin besar terhadap AI yang lebih alami dan sadar emosional. Pendekatan berbasis teks Xiaomi secara langsung membahas kebutuhan ini, yang bertujuan untuk membuat intelijen audio yang lebih bernuansa dan komprehensif yang dapat memberi daya pada generasi berikutnya dari aplikasi suara-pertama.
tantangan open-source di pasar yang ramai
keputusan Xiaomi untuk menggunakan Apache Apache 2.0 yang permisif. Ini memposisikan midashenglm sebagai alternatif yang menarik dan layak secara komersial untuk model berpemilik, api-gated dari Big Tech. Langkah ini mencerminkan strategi sumber terbuka yang baru-baru ini digunakan oleh AI Mistral Prancis.
Pada bulan Juli, Mistral meluncurkan model voxtral dengan tujuan yang sama, menggarisbawahi tujuan bersama untuk memberdayakan pengembang. Ini menciptakan front baru dalam AI Wars, mengadu penantang open-source terhadap raksasa yang sudah mapan.
Lanskap kompetitif diperebutkan dengan sengit. Dalam beberapa bulan terakhir, Amazon meluncurkan model Nova Sonic ekspresif real-time, dengan perangkat Amazon memimpin Panos Panay menjanjikan,”Ketika Anda menggunakan Alexa+, Anda akan merasakannya.”Meanwhile, Anthropic rolled out voice for its Claude AI, and OpenAI continues to enhance ChatGPT’s voice mode.
This intense environment, marked by a fierce talent war that has seen Meta acquire startups like PlayAI, means Xiaomi’s powerful and efficient open-source offering arrives at a critical moment, providing developers with a compelling new choice.
Kesenjangan kinerja sangat mencolok dalam klasifikasi audio. Pada patokan VGGSound, Midashenglm mencapai akurasi 52,11%, sedangkan pesaing terdekatnya, Qwen2.5-OMNI-7B, skor kurang dari 1%. Ini menunjukkan kemampuan yang unggul dalam mengidentifikasi dan mengkategorikan suara lingkungan yang beragam, fungsi kritis untuk rumah pintar dan aplikasi otomotif. Model ini juga menunjukkan hasil terkemuka dalam identifikasi pembicara dan bahasa pada tolok ukur seperti voxceleb1 dan voxlingua107, memperkuat desain holistiknya.
Di luar kinerja mentah, klaim efisiensi model sangat agresif dan menargetkan titik nyeri utama bagi pengembang: biaya penempatan dan latensi. Xiaomi melaporkan speedup throughput 3.2x pada ukuran batch yang sebanding dan waktu-ke-first yang merupakan hingga empat kali lebih cepat dari Qwen model . Efisiensi ini bukan hanya metrik teoretis; Ini diterjemahkan ke biaya operasional yang lebih rendah dan pengalaman pengguna yang lebih responsif. Yang terpenting, model ini dapat memproses ukuran batch yang jauh lebih besar-hingga 512 pada GPU 80GB di mana pesaing gagal-tidak mengunci potensi peningkatan throughput 20x yang sangat penting untuk layanan dunia nyata yang dapat diskalakan.
Namun, kinerja model dalam pengenalan ucapan otomatis (ASR) menyajikan gambaran yang lebih bernuansa. Sementara itu menunjukkan hasil yang kuat dan kompetitif dalam bahasa Cina dan beberapa bahasa lain seperti Indonesia dan Thailand, itu sedikit membuntuti model khusus pada beberapa tolok ukur berbahasa Inggris seperti Librispeech. This trade-off appears to be a direct result of its broader, caption-focused training, which prioritizes holistic audio understanding over pure transcription, a strategic choice that sets it apart from many ASR-first competitors.
Beyond Transcription: A Novel Caption-Based Approach
The model’s technical architecture reveals a strategic departure from industry norms, a move that prioritizes holistic audio intelligence melalui transkripsi sederhana. Alih-alih mengandalkan pengenalan ucapan otomatis tradisional (ASR) untuk pelatihan, Midashenglm dibangun di atas metode”Keterangan Audio Umum”baru. Pendekatan inovatif ini ditenagai oleh ACAVCAPS, dataset 38.662 jam yang besar dan dikuratori yang berasal dari repositori audio ACAV100M sumber terbuka.
Dasar pemikiran Xiaomi untuk meninggalkan pendekatan ASR-FIRST jelas. Sebagaimana dirinci dalam dokumentasi teknisnya, sistem ASR tradisional membuang sejumlah besar informasi non-pidato, seperti musik dan suara lingkungan. Mereka juga kehilangan isyarat paralinguistik penting seperti emosi pembicara dan sifat akustik. Sebaliknya, keterangan dapat memanfaatkan semua konten audio, menangkap konteks global dari rekaman, dan memberikan sinyal pembelajaran yang lebih menantang untuk model, memaksanya untuk mengembangkan pemahaman yang lebih dalam.
Penciptaan dataset ACAVCAPS adalah usaha yang signifikan dengan sendirinya. Setiap keterangan dihasilkan melalui proses tiga langkah yang canggih: analisis awal oleh beberapa model ahli (untuk ucapan, musik, dan akustik), diikuti oleh penalaran yang digerakkan LLM untuk mensintesis metadata, dan akhirnya, tahap penyaringan untuk memastikan konsistensi audio-teks yang tinggi. Pipa yang ketat ini memastikan data pelatihan kaya, beragam, dan secara akurat mencerminkan konteks penuh audio.
Dataset unik ini dimasukkan ke dalam arsitektur yang menggabungkan dua komponen yang kuat: Encoder audio open-source milik Xiaomi sendiri, yang dikreditkan sebagai”Core Foundation”dari kinerja model, dan qwen2.5-omni-7b Model pemikir , yang berfungsi sebagai decoder dasar. Kerangka kerja terpadu ini memungkinkan sistem untuk menangani ucapan, suara lingkungan, dan elemen musik secara bersamaan, menafsirkannya sebagai keseluruhan yang kohesif daripada aliran data yang terpisah.
Fokus pada pemahaman kontekstual yang lebih dalam dan selaras dengan tren industri yang semakin besar terhadap AI yang lebih alami dan sadar emosional. Pendekatan berbasis teks Xiaomi secara langsung membahas kebutuhan ini, yang bertujuan untuk membuat intelijen audio yang lebih bernuansa dan komprehensif yang dapat memberi daya pada generasi berikutnya dari aplikasi suara-pertama.
tantangan open-source di pasar yang ramai
keputusan Xiaomi untuk menggunakan Apache Apache 2.0 yang permisif. Ini memposisikan midashenglm sebagai alternatif yang menarik dan layak secara komersial untuk model berpemilik, api-gated dari Big Tech. Langkah ini mencerminkan strategi sumber terbuka yang baru-baru ini digunakan oleh AI Mistral Prancis.
Pada bulan Juli, Mistral meluncurkan model voxtral dengan tujuan yang sama, menggarisbawahi tujuan bersama untuk memberdayakan pengembang. Ini menciptakan front baru dalam AI Wars, mengadu penantang open-source terhadap raksasa yang sudah mapan.
Lanskap kompetitif diperebutkan dengan sengit. Dalam beberapa bulan terakhir, Amazon meluncurkan model Nova Sonic ekspresif real-time, dengan perangkat Amazon memimpin Panos Panay menjanjikan,”Ketika Anda menggunakan Alexa+, Anda akan merasakannya.”Meanwhile, Anthropic rolled out voice for its Claude AI, and OpenAI continues to enhance ChatGPT’s voice mode.
This intense environment, marked by a fierce talent war that has seen Meta acquire startups like PlayAI, means Xiaomi’s powerful and efficient open-source offering arrives at a critical moment, providing developers with a compelling new choice.