NVIDIA vapauttaa nopean paikanparake-AI-puheentunnistusmallin, väittää kärkipaikan tulostaulussa

nvidia on tullut avoimen lähdekoodin puheentunnistuksen areena Parakeet-TDT-0.6b-V2 , automaattinen puhetunnistus (asr) malli Noin 1. toukokuuta malli erottui nopeasti itsensä kiinnittämällä ensisijainen sijainti halaus kasvot avoimen asr-tuottopohjan . Se saavutti tämän sijoituksen 6,05%: n keskimääräisellä sanamehdolla (WER), joka on transkription epätarkkuuden mitta. Tämä esitys asettaa sen hieman edelle muita äskettäin näkyviä avoimia malleja, kuten Microsoftin PHI-4-Multimodal, joka piti helmikuussa johtava paikka 6,14%: lla. Nvidia jakaa parakeet-tdt-0.6b-v2: n sallitun cc-by-4.0 Sovellukset.

arkkitehtuuri ja nopeuden optimoinnit

NVIDIA korostaa mallin käsittelynopeutta. Yrityksen vertailuarvojen mukaan malli voi käsitellä tunnin äänen noin sekunnissa sopivalla laitteistolla, mikä vastaa korkeaa käänteistä reaaliaikakerrointa (RTFX) 3380. Arkkitehtuuri: FastConformer-kooderi, joka on parillinen token-ja kesto-muuntimen (TDT) dekooderin kanssa. TDT-lähestymistapa, NVIDIA: n yksityiskohtaisesti. Laskennallinen yleiskustannus lukuisten”tyhjien”rahakkeiden ennustamisesta, jotka ovat yleisiä muissa menetelmissä.

Lisänopeuden parannukset ovat ilmoitettu johtuvan optimoinnista nvidia tensorrt ja fp8 kvantisointi . Lisäksi mallin täyden huomion mekanismin avulla se voi käsitellä pitkät audiotuloja, jopa 24 mi n utes , yhdessä go. Keskimääräinen WER johtaa tiettyä halaamista kasvojen tulostaulua avoimille malleille, joissa Openain Whisper V3: n kaltaiset parhaat järjestelmät osoittavat edelleen alhaisemmat virheprosentit laajemmilla arvioinnilla.

Parakeet-TDT-0,6b-V2: n 600 miljoonaa parametria edustavat suhteellisen kompakti kokoa verrattuna malleihin, kuten Whisper V3 (1,5B-parametri). NVIDIA: n testaus vakiovertailuarvoissa paljasti vaihtelivat tulokset: alhaiset librispeechin Wers (1,69% testipuhdista, 3,19% test-muussa) vastakohtana korkeampiin tietojoukkoihin, kuten AMI-kokousrekisteriin (11,16%). WER) oli vain hiukan huonompi kuin tavallisella 16 kHz: n äänellä (6,05% WER). Tärkeimmät ominaisuudet sisältävät automaattiset välimerkit, iskut, sanatason aikaleimat ja huomattavan kyvyn kappaleeksi-lyrics-transkriptioon.

koulutustiedot ja saatavuus

Malli kehitettiin , yrityksen alusta erilaisten AI-mallejen rakentamiseksi. Sen koulutus aloitettiin alustuksella WAV2VEC OMISEN ASUPERVIDED LEPPLE Tarkastuspiste, joka on esitetty “. Myöhemmässä koulutuksessa käytettiin NVIDIA: n laajaa vilja-tietojoukkoa (~ 120 000 tuntia englanninkielistä puhetta), jossa yhdistyvät ihmisen transkriptoidut lähteet (kuten librispeth , Fisher Corpus , Mozilla Common Voice 8.0, VCTK, voxpopuli ) pseudo-labeloitujen tietojen kanssa YouTube Commons ja yodas .

nvidia suunnittelee julkisen julkaisun Granary DataSet-sovelluksen . Vaikka tätä versiota ei ole määritelty, aiemmat parakeet-mallit, kuten Paraset-tdt 1.1b

Parakeet-TDT-0.6b-V2 on optimoitu NVIDIA GPUS: lle arkkitehtuurien, kuten Ampere, Hopper, Volta, Blackwell ja Turing (T4), välillä, mutta se voi ilmoittaa vain 2 Gt: n RAM-muistia. Sen nopeus ja sallittava lisenssi tekevät siitä houkuttelevan vaihtoehdon kehittäjille. Nvidia toteaa,

NVIDIA vapauttaa nopean paikanparake-AI-puheentunnistusmallin, väittää kärkipaikan tulostaulussa

Published by All Things Windows on May 6, 2025

arkkitehtuuri ja nopeuden optimoinnit

koulutustiedot ja saatavuus

IT Info

Työntekijöiden valvontaohjelmisto Kickidler asetettu hienostuneisiin lunastushyökkäyksiin

IT Info

Google lisää Gemini Livelle Google Workspace-tileille

IT Info

Kuinka luoda koko järjestelmän kuvan varmuuskopio Windows 10: ssä

NVIDIA vapauttaa nopean paikanparake-AI-puheentunnistusmallin, väittää kärkipaikan tulostaulussa

Published by All Things Windows on May 6, 2025

arkkitehtuuri ja nopeuden optimoinnit

koulutustiedot ja saatavuus

Related Posts

IT Info

Työntekijöiden valvontaohjelmisto Kickidler asetettu hienostuneisiin lunastushyökkäyksiin

IT Info

Google lisää Gemini Livelle Google Workspace-tileille

IT Info

Kuinka luoda koko järjestelmän kuvan varmuuskopio Windows 10: ssä