Metas AI-forskningsavdelning har släppt Omnilingual ASR, ett kraftfullt taligenkänningssystem med öppen källkod som stöder över 1 600 språk.

Projektet syftar till att skapa ett universellt transkriptionsverktyg som ger AI-stöd för 500 språk för första gången. Modellerna är utvecklade av Metas Fundamental AI Research (FAIR)-team och är tillgängliga under en tillåten licens för både forskning och kommersiell användning.

Initiativet syftar till att stänga den digitala klyftan genom att göra högkvalitativ tal-till-text-teknik tillgänglig för underrepresenterade språkgemenskaper globalt. Sviten innehåller olika modellstorlekar, från lätta versioner för mobila enheter till storskaliga modeller för maximal noggrannhet.

Ett kvantsprång i språktäckning

Omnilingual ASR:s skala representerar en betydande milstolpe för talteknik. Dess stöd för över 1 600 språk utökar den globala åtkomsten dramatiskt, särskilt jämfört med ledande proprietära system som OpenAI:s Whisper, som täcker cirka 100 språk.

För hundratals språkgemenskaper är detta första gången deras talade ord kan transkriberas av ett AI-system, vilket öppnar upp för nya kommunikationsmöjligheter,

,

. uppnå denna bredd, integrerade Metas FAIR-team offentligt tillgängliga datauppsättningar med inspelningar från communityn som samlats in genom partnerskap med organisationer som Mozillas Common Voice.

Detta samarbete var avgörande för att nå språk med lite eller inget befintligt digitalt fotavtryck. För att driva på ytterligare innovation, släpper Meta även Omnilingual ASR Corpus, en unik samling av transkriberat tal på 350 underbetjänade språk, under en CC-BY-licens. Denna datauppsättning i sig är ett stort bidrag till det globala forskarsamhället.

Metas tillkännagivande belyser systemets robusta prestanda i detta vidsträckta språkliga landskap. Flaggskeppsmodellen med 7 miljarder parametrar, LLM-ASR, uppnår en teckenfelsfrekvens (CER) under 10 för 78 % av de språk som stöds.

Denna noggrannhetsnivå gör den till ett praktiskt verktyg för ett brett spektrum av applikationer, som går bortom experimentella användningsfall till verkliga implementeringar.

Open Source

Lyd 3:

Till skillnad från traditionella ASR-system som kräver omfattande finjusteringar, introducerar Omnilingual ASR en ny funktion”Ta med ditt eget språk”. Denna förmåga, inspirerad av stora språkmodeller, tillåter användare att lägga till stöd för helt nya språk genom att bara tillhandahålla en handfull parade ljud-och textexempel.

En sådan inlärningsmetod i sammanhanget eliminerar behovet av massiva datamängder eller specialiserad expertis, vilket gör det möjligt för samhällen att anpassa tekniken för sina egna behov.

Denna flexibilitet är förankrad i systemets avancerade flexibilitet. Den parar ihop en uppskalad 7B wav2vec 2.0-talkodare, som lär sig rika representationer från råljud, med en transformatorbaserad avkodare som liknar de som används i LLM:er.

Denna design är det som gör det möjligt för modellen att generalisera till nya språk från några exempel. Genom att släppa sina modeller under Apache 2.0-licensen gör Meta det möjligt för utvecklare och företag att fritt bygga vidare på och integrera denna teknik i kommersiella produkter.

Hela projektet är byggt på FAIRs öppen källkod integration

PyTorch-ekosystemet.

The Competitive Landscape and Future Impact

Metas release omformar strategiskt taligenkänningsfältet med öppen källkod. Tidigare under året hade Nvidias Parakeet-modell tagit en topplacering på offentliga topplistor med imponerande hastighet och noggrannhet på engelska riktmärken.

Men Omnilingual ASR flyttar fokus från enspråkig prestanda till massiv flerspråkig skala och tillgänglighet. Dess community-drivna expansionsmodell presenterar ett annat paradigm än de mer statiska, centralt uppdaterade systemen som har dominerat området.

Den potentiella påverkan för utvecklare och olika industrier är betydande. Den tillåtande licensen öppnar dörren för nya kommersiella applikationer inom global kundtjänst, medieinnehållsanalys och tillgänglighetsverktyg för underbetjänade befolkningar.

Inom områden som utbildning och lingvistik kan tekniken användas för att skapa läromedel och bevara hotade språk.

Genom att tillhandahålla en mångsidig modellfamilj, från en lättviktsversion till B-versionen, är Meta00-versionen den kraftfulla 3-versionen. community med verktyg som är skräddarsydda för olika användningsfall, från appar på enheten till forskning med hög noggrannhet. Utgivningen är ett viktigt steg mot ett verkligt universellt transkriptionssystem.