A Meta mesterséges intelligenciával foglalkozó kutatási részlege kiadta az Omnilingual ASR-t, egy erőteljes nyílt forráskódú beszédfelismerő rendszert, amely több mint 1600 nyelvet támogat.
A projekt célja egy univerzális átírási eszköz létrehozása, amely első alkalommal biztosít mesterséges intelligencia támogatást 500 nyelven. A Meta Fundamental AI Research (FAIR) csapata által kifejlesztett modellek megengedő licenc alatt állnak rendelkezésre kutatási és kereskedelmi használatra egyaránt.
A kezdeményezés célja a digitális megosztottság megszüntetése azáltal, hogy a kiváló minőségű beszéd-szöveg technológiát elérhetővé teszi az alulreprezentált nyelvi közösségek számára világszerte. A csomag különböző modellméreteket tartalmaz, a mobileszközökhöz való könnyű változatoktól a nagyméretű modellekig a maximális pontosság érdekében.
Kvantum ugrás a nyelvi lefedettségben
Az Omnilingual ASR skála jelentős mérföldkövet jelent a beszédtechnológia terén. Több mint 1600 nyelv támogatása drámaian kiterjeszti a globális hozzáférést, különösen az olyan vezető szabadalmaztatott rendszerekhez képest, mint az OpenAI Whisper, amely körülbelül 100 nyelvet fed le.
Nyelvi közösségek százai számára ez az első alkalom, hogy a kimondott szavaikat átírják egy mesterséges intelligencia rendszerrel, új kommunikációs, oktatási és új lehetőségeket nyit meg
. Ennek elérése érdekében a Meta FAIR csapata nyilvánosan elérhető adatkészleteket integrált a közösségi forrásból származó felvételekkel, amelyeket olyan szervezetekkel gyűjtöttek össze, mint a Mozilla’s Common Voice.
Ez az együttműködési erőfeszítés kulcsfontosságú volt ahhoz, hogy elérjük azokat a nyelveket, amelyek digitális lábnyoma alig vagy egyáltalán nem létezik. A további innováció ösztönzése érdekében a Meta kiadja az Omnilingual ASR Corpus-t is, amely 350 alulkiszolgált nyelven átírt beszéd egyedülálló gyűjteménye, CC-BY licenc alatt. Ez az adatkészlet önmagában is jelentős hozzájárulást jelent a globális kutatói közösséghez.
A Meta bejelentése kiemeli a rendszer robusztus teljesítményét ezen a hatalmas nyelvi környezetben. A zászlóshajó, 7 milliárd paraméteres modell, az LLM-ASR, a támogatott nyelvek 78%-ánál 10 alatti karakterhiba-arányt (CER) ér el.
Ez a pontossági szint praktikus eszközzé teszi számos alkalmazáshoz, és a kísérleti felhasználási eseteken túl a valós világban történő telepítés felé halad.
Bővítés
A hagyományos ASR-rendszerekkel ellentétben, amelyek kiterjedt finomhangolást igényelnek, az Omnilingual ASR egy újszerű „Bring Your Own Language” funkciót vezet be. Ez a nagy nyelvi modellek által ihletett képesség lehetővé teszi a felhasználók számára, hogy teljesen új nyelvek támogatását adják, mindössze néhány párosított hang-és szövegmintát biztosítva.
Az ilyen kontextuson belüli tanulási megközelítés szükségtelenné teszi a hatalmas adatkészletek vagy a speciális szakértelem szükségességét, lehetővé téve a közösségek számára, hogy a technológiát saját igényeikhez igazítsák.
Ez a rendszer gyökeres rugalmatlansága. Párosít egy felnagyított 7B wav2vec 2.0 beszédkódolót, amely gazdag reprezentációkat tanul meg a nyers hangból, az LLM-ekben használthoz hasonló transzformátor alapú dekóderrel.
Ez a kialakítás teszi lehetővé, hogy a modell néhány példából új nyelvekre általánosítson. Az Apache 2.0 licenc alatti modelljeinek kibocsátásával a Meta lehetővé teszi a fejlesztők és a vállalkozások számára, hogy szabadon építsenek erre a technológiára, és beépítsék a kereskedelmi termékekbe.
A teljes projekt a FAIR nyílt forráskódú méltányos integrációját biztosítva a Tq2-keretrendszerrel. ökoszisztéma.
A versenyképes táj és a jövő hatása
A Meta kiadása stratégiailag átalakítja a nyílt forráskódú beszédfelismerő területet. Az év elején az Nvidia Parakeet modellje az angol benchmarkokon lenyűgöző sebességgel és pontossággal megszerezte a vezető helyet a nyilvános ranglistákon.
Az Omnilingual ASR azonban áthelyezi a hangsúlyt az egynyelvű teljesítményről a hatalmas többnyelvűségre és a hozzáférhetőségre. A közösség által vezérelt terjeszkedési modellje más paradigmát mutat be, mint a statikusabb, központilag frissített rendszerek, amelyek uralták a teret.
A lehetséges hatás a fejlesztők és a különböző iparágak számára jelentős. A megengedő licenc új kereskedelmi alkalmazások előtt nyitja meg a kaput a globális ügyfélszolgálatban, a médiatartalomelemzésben és a kisegítő eszközökben az elmaradott lakosság számára.
Az olyan területeken, mint az oktatás és a nyelvészet, a technológia felhasználható tanulási segédanyagok létrehozására és a veszélyeztetett nyelvek megőrzésére.
Sokoldalú modellcsalád biztosításával, a könnyű, 300M-es változattól a Meta7B-es változatig. változatos felhasználási esetekre szabott, az eszközön történő alkalmazásoktól a nagy pontosságú kutatásokig. A kiadás jelentős lépés egy valóban univerzális átírási rendszer felé.