Startup AI Prancis Mistral meluncurkan model AI AI AI AI-Sumber pertama, Voxtral, pada hari Selasa, secara langsung menantang dominasi sistem kepemilikan dari Google dan Openai. Perusahaan yang berbasis di Paris memposisikan keluarga model barunya sebagai alternatif berkinerja tinggi dan hemat biaya untuk pengembang.
Mistral mengklaimnya memberikan pemahaman wicara canggih untuk
voxtral adalah jawaban open-source Mistral untuk suara berpemilik AI
Mistral memposisikan voxtral sebagai solusi untuk dilema pengembang yang sudah lama ada. Selama bertahun-tahun, tim harus memilih antara sistem bicara yang murah dan open-source yang sering memiliki tingkat kesalahan tinggi dan pemahaman terbatas, atau API berpemilik yang kuat yang datang dengan label harga tinggi dan kontrol penyebaran yang lebih sedikit. Voxtral bertujuan untuk menjembatani kesenjangan ini dengan memberikan apa yang disebut Mistral”kecerdasan pidato yang benar-benar dapat digunakan dalam produksi”di bawah lisensi Apache 2.0 yang permisif.
Perusahaan telah merilis keluarga model yang sesuai dengan kebutuhan yang berbeda. Flagship adalah Voxtral Small, model parameter 24 miliar yang dirancang untuk aplikasi skala produksi. Untuk penggunaan di perangkat atau lokal, ada voxtral mini, varian parameter 3 miliar yang lebih kompak. Akhirnya, untuk tugas-tugas yang peka terhadap biaya, volume tinggi, Mistral menawarkan transkripsi mini voxtral, versi yang sangat dioptimalkan dan dilucuti fokus murni pada transkripsi.
Aksesibilitas adalah pusat dari strategi Mistral. Kedua model kecil dan mini adalah tersedia untuk diunduh pada wajah pelukan untuk beban kerja lokal dan di tempat. Untuk integrasi berbasis cloud, model dapat diakses melalui panggilan API sederhana, dengan harga mulai dari $ 0,001 per menit. Perusahaan juga berencana untuk meluncurkan voxtral dalam mode suara chatbot le chatnya.
Kemampuan voxtral jauh melampaui ucapan dasar-ke-teks, berkat fondasi pada model bahasa 3.1 kecil yang salah. Tulang punggung LLM ini memberikan pemahaman semantik yang mendalam tentang konten audio. Dengan jendela konteks 32.000 yang dipertahankan, ia dapat memproses file audio hingga 30 menit untuk transkripsi dan hingga 40 menit untuk memahami tugas, seperti mengajukan pertanyaan kompleks tentang konten.
Arsitektur ini memungkinkan rangkaian fitur canggih, bawaan tanpa perlu berantai beberapa model AI bersama-sama. Voxtral dapat melakukan Q&A asli dan ringkasan, dan mendukung pemalsuan fungsi langsung dari perintah suara, mengubah niat lisan menjadi perintah sistem yang dapat ditindaklanjuti. Ini juga menampilkan deteksi bahasa otomatis, dengan kinerja canggih dalam bahasa yang banyak digunakan seperti bahasa Inggris, Spanyol, Prancis, Jerman, dan Hindi.
Dalam pengumumannya, Mistral menekankan tujuannya memberdayakan pengembang dan mempercepat masa depan yang pertama. Perusahaan menyatakan, “Kami merilis model voxtral untuk mempercepat masa depan ini. Model pemahaman pidato yang status ini tersedia dalam dua ukuran-varian 24B untuk aplikasi skala produksi dan varian 3B untuk penyebaran lokal dan edge.”Persaingan yang intens, di mana raksasa teknologi dan startup yang gesit semuanya bersaing untuk mendominasi di masa depan interaksi suara. Untuk mendukung klaimnya, Mistral merilis pemosisian data tolok ukur yang menarik sebagai pemimpin dalam kinerja dan efisiensi biaya. Pada patokan Fleurs, transkrip kecil dan mini voxtral duduk di tepi optimal kurva kinerja harga, memberikan tingkat kesalahan yang lebih rendah daripada Google Gemini 2.5 flash dan Openai’s GPT-4O mini transcribe untuk sebagian kecil dari biaya bahasa,
Model-model tersebut menunjukkan sebagian besar kapabilitas. Sementara penjaga ElevenLabs memposting tingkat kesalahan yang sedikit lebih rendah pada beberapa tugas bahasa Inggris yang panjang, ia melakukannya lebih dari dua kali lipat harga voxtral kecil, memperkuat proposisi nilai Mistral.
Peluncuran ini secara langsung menantang kemajuan berkelanjutan dari Big Tech. Dalam beberapa bulan terakhir, OpenAI memperluas mode suara canggihnya ke web, sementara antropik meluncurkan mode suara percakapan untuk Claude AI-nya. Amazon juga membuat langkah yang signifikan pada bulan April dengan model Nova Sonic ekspresif real-time, yang sudah diintegrasikan ke dalam asisten Alexa+-nya. Seperti yang dijanjikan oleh perangkat Amazon Panos Panay, “Ketika Anda menggunakan Alexa+, Anda akan merasakannya.”
Inovasi tidak terbatas pada Giants. Pasar juga dibentuk oleh startup khusus yang menjelajahi ceruk yang berbeda. Pada bulan Mei, stabilitas AI bermitra dengan ARM untuk merilis model audio bebas royalti, yang menangani kekhawatiran kekayaan intelektual dengan menggunakan data pelatihan yang bersumber secara etis. CEO Prem Akkaraju highlighted the focus on efficiency, stating, “we moved from minutes to mere seconds to generate audio entirely on the Arm CPU on the smartphone.”
At the other end of the spectrum, startups like Sesame AI are pushing the boundaries of realism, creating “eerily human-sounding”assistants that embrace imperfections like pauses and stutters to cross the uncanny lembah. Pencarian filosofis untuk keaslian emosional ini ditangkap oleh Anjney Midha dari Andreessen Horowitz, yang mencatat, “Kerataan emosional audio AI telah melelahkan dan tidak wajar. Tetapi jika Anda menghapus tampilan visual dari kacamata AR dan sebaliknya fokus pada sistem audio yang luar biasa, Anda dapat membuat pengalaman komputasi yang tidak terasa seperti
Untuk Mistral, Voxtral merupakan langkah yang signifikan. Perusahaan telah mengumumkan rencana untuk pembaruan di masa mendatang, termasuk segmentasi pembicara, deteksi emosi, dan cap waktu tingkat kata. Dengan menawarkan alternatif yang kuat, terbuka, dan terjangkau, Mistral bertaruh, ia dapat mengukir ceruk yang signifikan di masa depan yang pertama.