Divisi penelitian AI Meta telah merilis Omnilingual ASR, sistem pengenalan ucapan sumber terbuka canggih yang mendukung lebih dari 1.600 bahasa.
Proyek ini bertujuan untuk menciptakan alat transkripsi universal, yang memberikan dukungan AI untuk 500 bahasa untuk pertama kalinya. Dikembangkan oleh tim Fundamental AI Research (FAIR) Meta, model-model ini tersedia di bawah lisensi permisif untuk penelitian dan penggunaan komersial.
Inisiatif ini berupaya untuk menutup kesenjangan digital dengan membuat teknologi ucapan-ke-teks berkualitas tinggi dapat diakses oleh komunitas bahasa yang kurang terwakili secara global. Rangkaian ini mencakup berbagai ukuran model, mulai dari versi ringan untuk perangkat seluler hingga model berskala besar untuk akurasi maksimum.
Lompatan Kuantum dalam Cakupan Bahasa
Skala ASR Multibahasa mewakili tonggak penting dalam teknologi ucapan. Dukungannya terhadap lebih dari 1.600 bahasa secara signifikan memperluas akses global, terutama jika dibandingkan dengan sistem kepemilikan terkemuka seperti Whisper OpenAI, yang mencakup sekitar 100 bahasa.
Bagi ratusan komunitas bahasa, ini menandai pertama kalinya kata-kata lisan mereka dapat ditranskripsi oleh sistem AI, sehingga membuka kemungkinan baru untuk komunikasi, pendidikan, dan pelestarian digital.
Untuk mencapai jangkauan ini, tim FAIR Meta mengintegrasikan kumpulan data yang tersedia untuk umum dengan rekaman bersumber dari komunitas yang dikumpulkan melalui kemitraan dengan organisasi seperti Mozilla’s Common Voice.
Upaya kolaboratif ini sangat penting untuk menjangkau bahasa-bahasa yang memiliki sedikit atau tanpa jejak digital. Sebagai upaya untuk mendorong inovasi lebih lanjut, Meta juga merilis Omnilingual ASR Corpus, yaitu koleksi unik transkripsi ucapan dalam 350 bahasa yang kurang terlayani, di bawah lisensi CC-BY. Kumpulan data ini sendiri merupakan kontribusi besar bagi komunitas riset global.
Pengumuman Meta menyoroti kinerja sistem yang kuat di seluruh lanskap linguistik yang luas ini. Model andalan dengan 7 miliar parameter, LLM-ASR, mencapai tingkat kesalahan karakter (CER) di bawah 10 untuk 78% bahasa yang didukung.
Tingkat akurasi ini menjadikannya alat praktis untuk berbagai aplikasi, melampaui kasus penggunaan eksperimental hingga penerapan di dunia nyata.
Ekspansi Komunitas Kekuatan Arsitektur Sumber Terbuka dan LLM
Tidak seperti sistem ASR tradisional yang memerlukan ekstensif menyempurnakannya, ASR Omnilingual memperkenalkan fitur baru “Bawa Bahasa Anda Sendiri”. Kemampuan ini, yang terinspirasi oleh model bahasa besar, memungkinkan pengguna untuk menambahkan dukungan untuk bahasa yang benar-benar baru dengan menyediakan beberapa sampel audio dan teks yang dipasangkan.
Pendekatan pembelajaran dalam konteks seperti ini menghilangkan kebutuhan akan kumpulan data besar atau keahlian khusus, sehingga memberdayakan komunitas untuk mengadaptasi teknologi untuk kebutuhan mereka sendiri.
Fleksibilitas ini berakar pada arsitektur sistem yang canggih. Model ini memasangkan encoder ucapan 7B wav2vec 2.0 yang ditingkatkan, yang mempelajari representasi kaya dari audio mentah, dengan decoder berbasis transformator yang mirip dengan yang digunakan di LLM.
Desain inilah yang memungkinkan model untuk melakukan generalisasi ke bahasa baru dari beberapa contoh. Dengan merilis modelnya di bawah lisensi Apache 2.0, Meta memungkinkan pengembang dan bisnis untuk secara bebas mengembangkan dan mengintegrasikan teknologi ini ke dalam produk komersial.
Keseluruhan proyek dibangun berdasarkan kerangka kerja fairseq2 sumber terbuka FAIR, sehingga memastikan integrasi mendalam dengan ekosistem PyTorch.
Lanskap Kompetitif dan Dampak Masa Depan
Rilisan Meta secara strategis membentuk kembali bidang pengenalan suara sumber terbuka. Pada awal tahun, model Parkit Nvidia telah meraih posisi teratas di papan peringkat publik dengan kecepatan dan akurasi yang mengesankan pada tolok ukur bahasa Inggris.
Namun, ASR Omnilingual mengalihkan fokus dari performa satu bahasa ke skala dan aksesibilitas multibahasa yang sangat besar. Model ekspansi berbasis komunitas menghadirkan paradigma yang berbeda dari sistem yang lebih statis dan diperbarui secara terpusat yang mendominasi ruang.
Potensi dampaknya terhadap pengembang dan berbagai industri sangat besar. Lisensi permisif ini membuka pintu bagi aplikasi komersial baru dalam layanan pelanggan global, analisis konten media, dan alat aksesibilitas untuk populasi yang kurang terlayani.
Di bidang seperti pendidikan dan linguistik, teknologi ini dapat digunakan untuk membuat alat bantu pembelajaran dan melestarikan bahasa yang terancam punah.
Dengan menyediakan rangkaian model serbaguna, mulai dari versi 300M yang ringan hingga varian 7B yang canggih, Meta melengkapi komunitas dengan alat yang disesuaikan untuk beragam kasus penggunaan, mulai dari aplikasi pada perangkat hingga penelitian dengan akurasi tinggi. Rilis ini merupakan langkah signifikan menuju sistem transkripsi yang benar-benar universal.