nvidia on tullut avoimen lähdekoodin puheentunnistuksen areena Parakeet-TDT-0.6b-V2 , automaattinen puhetunnistus (asr) malli Noin 1. toukokuuta malli erottui nopeasti itsensä kiinnittämällä ensisijainen sijainti halaus kasvot avoimen asr-tuottopohjan . Se saavutti tämän sijoituksen 6,05%: n keskimääräisellä sanamehdolla (WER), joka on transkription epätarkkuuden mitta. Tämä esitys asettaa sen hieman edelle muita äskettäin näkyviä avoimia malleja, kuten Microsoftin PHI-4-Multimodal, joka piti helmikuussa johtava paikka 6,14%: lla. Nvidia jakaa parakeet-tdt-0.6b-v2: n sallitun cc-by-4.0 Sovellukset.
arkkitehtuuri ja nopeuden optimoinnit
NVIDIA korostaa mallin käsittelynopeutta. Yrityksen vertailuarvojen mukaan malli voi käsitellä tunnin äänen noin sekunnissa sopivalla laitteistolla, mikä vastaa korkeaa käänteistä reaaliaikakerrointa (RTFX) 3380. Arkkitehtuuri: FastConformer-kooderi, joka on parillinen token-ja kesto-muuntimen (TDT) dekooderin kanssa. TDT-lähestymistapa, NVIDIA: n yksityiskohtaisesti. Laskennallinen yleiskustannus lukuisten”tyhjien”rahakkeiden ennustamisesta, jotka ovat yleisiä muissa menetelmissä.
Lisänopeuden parannukset ovat ilmoitettu johtuvan optimoinnista nvidia tensorrt ja fp8 kvantisointi . Lisäksi mallin täyden huomion mekanismin avulla se voi käsitellä pitkät audiotuloja, jopa 24 mi n utes , yhdessä go. Keskimääräinen WER johtaa tiettyä halaamista kasvojen tulostaulua avoimille malleille, joissa Openain Whisper V3: n kaltaiset parhaat järjestelmät osoittavat edelleen alhaisemmat virheprosentit laajemmilla arvioinnilla.
Parakeet-TDT-0,6b-V2: n 600 miljoonaa parametria edustavat suhteellisen kompakti kokoa verrattuna malleihin, kuten Whisper V3 (1,5B-parametri). NVIDIA: n testaus vakiovertailuarvoissa paljasti vaihtelivat tulokset: alhaiset librispeechin Wers (1,69% testipuhdista, 3,19% test-muussa) vastakohtana korkeampiin tietojoukkoihin, kuten AMI-kokousrekisteriin (11,16%). WER) oli vain hiukan huonompi kuin tavallisella 16 kHz: n äänellä (6,05% WER). Tärkeimmät ominaisuudet sisältävät automaattiset välimerkit, iskut, sanatason aikaleimat ja huomattavan kyvyn kappaleeksi-lyrics-transkriptioon.
koulutustiedot ja saatavuus
Malli kehitettiin , yrityksen alusta erilaisten AI-mallejen rakentamiseksi. Sen koulutus aloitettiin alustuksella WAV2VEC OMISEN ASUPERVIDED LEPPLE Tarkastuspiste, joka on esitetty “. Myöhemmässä koulutuksessa käytettiin NVIDIA: n laajaa vilja-tietojoukkoa (~ 120 000 tuntia englanninkielistä puhetta), jossa yhdistyvät ihmisen transkriptoidut lähteet (kuten librispeth , Fisher Corpus , Mozilla Common Voice 8.0, VCTK, voxpopuli ) pseudo-labeloitujen tietojen kanssa YouTube Commons ja yodas .
nvidia suunnittelee julkisen julkaisun Granary DataSet-sovelluksen . Vaikka tätä versiota ei ole määritelty, aiemmat parakeet-mallit, kuten Paraset-tdt 1.1b
Parakeet-TDT-0.6b-V2 on optimoitu NVIDIA GPUS: lle arkkitehtuurien, kuten Ampere, Hopper, Volta, Blackwell ja Turing (T4), välillä, mutta se voi ilmoittaa vain 2 Gt: n RAM-muistia. Sen nopeus ja sallittava lisenssi tekevät siitä houkuttelevan vaihtoehdon kehittäjille. Nvidia toteaa,