Divizioni i kërkimit të AI të Meta ka lëshuar Omnilingual ASR, një sistem i fuqishëm i njohjes së të folurit me burim të hapur që mbështet mbi 1600 gjuhë.
Projekti synon të krijojë një mjet universal transkriptimi, duke ofruar mbështetje të AI për 500 gjuhë për herë të parë. Zhvilluar nga ekipi i Meta’s Fundamental AI Research (FAIR), modelet janë të disponueshme nën një licencë lejuese si për përdorim kërkimor ashtu edhe për përdorim komercial.
Iniciativa synon të mbyllë ndarjen dixhitale duke e bërë teknologjinë e cilësisë së lartë të fjalës në tekst të aksesueshme për komunitetet gjuhësore të nënpërfaqësuara në mbarë botën. Kompleti përfshin madhësi të ndryshme modelesh, nga versionet e lehta për pajisjet celulare deri tek modelet e shkallës së gjerë për saktësi maksimale.
Një kërcim kuantik në mbulimin gjuhësor
Shkalla e ASR shumëgjuhëshe përfaqëson një moment historik të rëndësishëm për teknologjinë e të folurit. Mbështetja e tij për mbi 1,600 gjuhë zgjeron në mënyrë dramatike aksesin global, veçanërisht kur krahasohet me sistemet kryesore të pronarit si OpenAI’s Whisper, i cili mbulon rreth 100 gjuhë.
Për qindra komunitete gjuhësore, kjo shënon herën e parë që fjalët e tyre të folura mund të transkriptohen nga një sistem i ri i AI, edukimi dhe hapja dixhitale.
Për të arritur këtë gjerësi, ekipi i Meta-s FAIR integroi grupe të dhënash të disponueshme publikisht me regjistrime me burim nga komuniteti të mbledhura përmes partneriteteve me organizata si Zëri i përbashkët i Mozilla-s.
Kjo përpjekje bashkëpunuese ishte thelbësore për arritjen e gjuhëve me pak ose aspak gjurmë dixhitale ekzistuese. Në një lëvizje për të nxitur inovacione të mëtejshme, Meta po lëshon gjithashtu Omnilingual ASR Corpus, një koleksion unik i të folurit të transkriptuar në 350 gjuhë të pashërbyera, nën një licencë CC-BY. Vetë ky grup të dhënash është një kontribut i madh për komunitetin global të kërkimit.
Njoftimi i Meta thekson performancën e fuqishme të sistemit në këtë peizazh të gjerë gjuhësor. Modeli kryesor me 7 miliardë parametra, LLM-ASR, arrin një shkallë gabimi karakteresh (CER) nën 10 për 78% të gjuhëve të mbështetura.
Ky nivel saktësie e bën atë një mjet praktik për një gamë të gjerë aplikacionesh, duke lëvizur përtej rasteve të përdorimit eksperimental në vendosjen në botën reale të Komunitetit.
Ndryshe nga sistemet tradicionale ASR që kërkojnë rregullim të gjerë, ASR njëgjuhëshe prezanton një veçori të re”Sillni gjuhën tuaj”. Kjo aftësi, e frymëzuar nga modele të mëdha gjuhësore, i lejon përdoruesit të shtojnë mbështetje për gjuhë krejtësisht të reja duke ofruar vetëm një pjesë të vogël të mostrave të çiftuara audio dhe teksti.
Një qasje e tillë e të mësuarit brenda kontekstit eliminon nevojën për grupe të dhënash masive ose ekspertizë të specializuar, duke fuqizuar komunitetet për të përshtatur teknologjinë për nevojat e tyre.
Ky fleksibilitet i avancuar është i rrënjosur në sistemin e arkitekturës. Ai çifton një kodues të folur të shkallëzuar 7B wav2vec 2.0, i cili mëson paraqitje të pasura nga audio e papërpunuar, me një dekoder të bazuar në transformator të ngjashëm me ato të përdorura në LLM.
Ky dizajn i mundëson modelit të përgjithësohet në gjuhë të reja nga disa shembuj. Duke lëshuar modelet e saj nën licencën Apache 2.0, Meta po u mundëson zhvilluesve dhe bizneseve që lirisht të ndërtojnë dhe ta integrojnë këtë teknologji në produktet komerciale.
I gjithë projekti është ndërtuar mbi burimin e hapur të FAIR integraction en. me ekosistemin PyTorch.
Peizazhi konkurrues dhe ndikimi në të ardhmen
Lëshimi i Meta riformëson në mënyrë strategjike fushën e njohjes së të folurit me burim të hapur. Më herët gjatë vitit, modeli Parakeet i Nvidia kishte marrë një vend të parë në tabelat publike me shpejtësi dhe saktësi mbresëlënëse në standardet angleze.
Megjithatë, Omnilingual ASR e zhvendos fokusin nga performanca në një gjuhë në shkallë masive shumëgjuhëshe dhe aksesueshmëri. Modeli i tij i zgjerimit i drejtuar nga komuniteti paraqet një paradigmë të ndryshme nga sistemet më statike dhe të përditësuara nga qendra që kanë dominuar hapësirën.
Ndikimi i mundshëm për zhvilluesit dhe industritë e ndryshme është thelbësor. Licenca lejuese hap derën për aplikacione të reja komerciale në shërbimin global të klientit, analizën e përmbajtjes së medias dhe mjetet e aksesueshmërisë për popullatat e pashërbyera.
Në fusha si arsimi dhe gjuhësia, teknologjia mund të përdoret për të krijuar mjete mësimore dhe për të ruajtur gjuhët e rrezikuara.
Duke ofruar një familje të gjithanshme modelesh, nga një version i fuqishëm eB70M në peshën e lehtë, në 30. komunitet me mjete të përshtatura për raste të ndryshme përdorimi, nga aplikacionet në pajisje deri te kërkimet me saktësi të lartë. Publikimi është një hap i rëndësishëm drejt një sistemi vërtet universal transkriptimi.