Bahagian Penyelidikan AI Meta telah mengeluarkan Omnilingual ASR, sistem pengenalan ucapan sumber terbuka yang kuat yang menyokong lebih daripada 1,600 bahasa.

Projek ini bertujuan untuk mewujudkan alat transkripsi sejagat, menyediakan sokongan AI untuk 500 bahasa untuk kali pertama. Dibangunkan oleh Pasukan Penyelidikan AI (FAIR) asas Meta, model-model ini boleh didapati di bawah lesen permisif untuk penggunaan dan penggunaan komersial. Suite ini merangkumi pelbagai saiz model, dari versi ringan untuk peranti mudah alih ke model berskala besar untuk ketepatan maksimum.

Lompat kuantum dalam liputan bahasa

skala ASR omnilingual mewakili peristiwa penting untuk teknologi pertuturan. Sokongannya untuk lebih daripada 1,600 bahasa secara dramatik memperluaskan akses global, terutamanya jika dibandingkan dengan sistem proprietari terkemuka seperti Openai’s Whisper, yang meliputi sekitar 100 bahasa. Breadth, pasukan adil Meta bersepadu dataset yang tersedia secara terbuka dengan rakaman masyarakat yang dikumpulkan melalui perkongsian dengan organisasi seperti suara biasa Mozilla.

Usaha kolaborasi ini adalah penting untuk mencapai bahasa dengan jejak digital yang sedikit atau tidak ada. Dalam satu langkah untuk membakar inovasi selanjutnya, Meta juga melepaskan Omnilingual ASR corpus Dataset ini sendiri merupakan sumbangan besar kepada komuniti penyelidikan global.

Landskap kompetitif dan kesan masa depan

pelepasan meta secara strategik membentuk semula bidang pengiktirafan ucapan sumber terbuka. Terdahulu pada tahun ini, model parakeet Nvidia telah mendakwa tempat teratas di papan pendahulu awam dengan kelajuan dan ketepatan yang mengagumkan pada penanda aras bahasa Inggeris. Model pengembangan yang didorong oleh masyarakatnya membentangkan paradigma yang berbeza dari sistem yang lebih statik dan terpusat yang telah menguasai ruang.

Kesan yang berpotensi untuk pemaju dan pelbagai industri adalah besar. Lesen permisif membuka pintu untuk aplikasi komersil baru dalam perkhidmatan pelanggan global, analisis kandungan media, dan alat kebolehaksesan untuk penduduk yang kurang mendapat perhatian. Alat yang disesuaikan untuk kes-kes penggunaan yang pelbagai, dari aplikasi pada peranti ke penyelidikan ketepatan tinggi. Pelepasan ini adalah langkah penting ke arah sistem transkripsi yang benar-benar sejagat.