Metas AI-forskningsavdeling har lansert Omnilingual ASR, et kraftig åpen kildekode-talegjenkjenningssystem som støtter over 1600 språk.

Prosjektet tar sikte på å lage et universelt transkripsjonsverktøy, som gir AI-støtte for 500 språk for første gang. Modellene er utviklet av Metas Fundamental AI Research (FAIR)-team, og er tilgjengelige under en tillatelig lisens for både forskning og kommersiell bruk.

Initiativet søker å lukke det digitale skillet ved å gjøre høykvalitets tale-til-tekst-teknologi tilgjengelig for underrepresenterte språksamfunn globalt. Suiten inkluderer ulike modellstørrelser, fra lette versjoner for mobile enheter til modeller i stor skala for maksimal nøyaktighet.

height=”1″8″i”8jpg”>

Et kvantesprang i språkdekning

Omnilingual ASRs skala representerer en betydelig milepæl for taleteknologi. Dens støtte for over 1600 språk utvider den globale tilgangen dramatisk, spesielt sammenlignet med ledende proprietære systemer som OpenAIs Whisper, som dekker rundt 100 språk.

For hundrevis av språksamfunn er dette første gang de talte ordene deres kan transkriberes av et AI-system, og åpner for nye kommunikasjonsmuligheter,

,

. oppnå denne bredden, integrerte Metas FAIR-team offentlig tilgjengelige datasett med fellesskapsbaserte opptak samlet inn gjennom partnerskap med organisasjoner som Mozillas Common Voice.

Denne samarbeidsinnsatsen var avgjørende for å nå språk med lite eller ingen eksisterende digitalt fotavtrykk. I et grep for å fremme ytterligere innovasjon, gir Meta også ut Omnilingual ASR Corpus, en unik samling av transkribert tale på 350 undertjente språk, under en CC-BY-lisens. Dette datasettet i seg selv er et viktig bidrag til det globale forskningsmiljøet.

Metas kunngjøring fremhever systemets robuste ytelse i dette enorme språklige landskapet. Flaggskipet med 7 milliarder parametere, LLM-ASR, oppnår en tegnfeilrate (CER) under 10 for 78 % av de støttede språkene.

Dette nøyaktighetsnivået gjør det til et praktisk verktøy for et bredt spekter av applikasjoner, og beveger seg utover eksperimentelle brukstilfeller til implementering i den virkelige verden.

Open Source

Open LM Architecture

I motsetning til tradisjonelle ASR-systemer som krever omfattende finjustering, introduserer Omnilingual ASR en ny”Bring Your Own Language”-funksjon. Denne funksjonen, inspirert av store språkmodeller, lar brukere legge til støtte for helt nye språk ved å tilby bare en håndfull sammenkoblede lyd-og teksteksempler.

En slik tilnærming til læring i kontekst eliminerer behovet for massive datasett eller spesialisert ekspertise, og gir lokalsamfunn mulighet til å tilpasse teknologien til sine egne behov.

Denne fleksibiliteten er forankret i systemets avanserte fleksibilitet. Den kobler sammen en oppskalert 7B wav2vec 2.0 talekoder, som lærer rike representasjoner fra rålyd, med en transformatorbasert dekoder som ligner på de som brukes i LLM-er.

Dette designet er det som gjør at modellen kan generalisere til nye språk fra noen få eksempler. Ved å gi ut modellene sine under Apache 2.0-lisensen, gjør Meta det mulig for utviklere og bedrifter å fritt bygge videre på og integrere denne teknologien i kommersielle produkter.

Hele prosjektet er bygget på FAIRs åpen kildekode integrasjon

PyTorch-økosystemet.

The Competitive Landscape and Future Impact

Metas utgivelse omformer strategisk talegjenkjenningsfeltet med åpen kildekode. Tidligere på året hadde Nvidias Parakeet-modell tatt en topplassering på offentlige ledertavler med imponerende hastighet og nøyaktighet på engelske benchmarks.

Men Omnilingual ASR flytter fokus fra ettspråklig ytelse til massiv flerspråklig skala og tilgjengelighet. Dens fellesskapsdrevne utvidelsesmodellen presenterer et annet paradigme enn de mer statiske, sentralt oppdaterte systemene som har dominert området.

Den potensielle innvirkningen for utviklere og ulike bransjer er betydelig. Den tillatelige lisensen åpner døren for nye kommersielle applikasjoner innen global kundeservice, analyse av medieinnhold og tilgjengelighetsverktøy for undertjente populasjoner.

På felt som utdanning og lingvistikk kan teknologien brukes til å lage læremidler og bevare truede språk.

Ved å tilby en allsidig familie av modeller, fra en lettvektsversjon til B-versjonen, er den kraftige Mete-versjonen 300. fellesskap med verktøy skreddersydd for ulike brukstilfeller, fra applikasjoner på enheten til forskning med høy nøyaktighet. Utgivelsen er et betydelig skritt mot et virkelig universelt transkripsjonssystem.