Inilabas ng NVIDIA ang high-speed parakeet AI speech pagkilala sa modelo, inaangkin ang tuktok na lugar sa leaderboard

Ang

nvidia ay pumasok sa arena ng open-source na pagkilala sa pagsasalita na may parakeet-tdt-0.6b-v2 Sa paligid ng Mayo 1, ang modelo ay mabilis na nakilala ang sarili sa pamamagitan ng pag-secure ng pangunahing posisyon sa yakap na mukha bukas na ASR leaderboard . Nakamit nito ang ranggo na ito na may 6.05% average na rate ng error sa salita (WER), isang sukatan ng hindi tumpak na transkripsyon. Ang pagganap na ito ay inilalagay ito nang bahagya sa iba pang mga kamakailan-lamang na kilalang bukas na mga modelo, tulad ng Phi-4-Multimodal ng Microsoft, na gaganapin ang nangungunang lugar noong Pebrero na may 6.14% wer. Ang nvidia ay namamahagi ng parakeet-dt-0.6b-v2 sa ilalim ng pahintulot lisensya Mga aplikasyon.

arkitektura at bilis ng pag-optimize Iminumungkahi ng mga benchmark ng kumpanya ng kumpanya na ang modelo ay maaaring magproseso ng isang oras ng audio sa halos isang segundo sa naaangkop na hardware, na naaayon sa isang mataas na kabaligtaran na real time factor (rtfx) ng 3380. Arkitektura: Isang fastconformer encoder na ipinares sa isang token-and-duration transducer (TDT) decoder. Ang diskarte ng TDT, bilang detalyado ng nvidia , na naglalayong mapabilis overhead mula sa paghula ng maraming mga’blangko’na mga token na karaniwang sa iba pang mga pamamaraan. Bilang karagdagan, ang buong mekanismo ng pansin ng modelo ay nagbibigay-daan sa paghawak nito sa mahabang audio input, hanggang sa 24 mi n utes , sa isang go. Ang 6.05% average na Wer ay humahantong sa tukoy na yakap na mukha ng leaderboard para sa mga bukas na modelo, kung saan ang mga nangungunang mga sistema ng pagmamay-ari tulad ng OpenAi’s Whisper V3 ay nagpapakita pa rin ng mas mababang mga rate ng error sa mas malawak na pagsusuri. Ang pagsubok ng NVIDIA sa mga karaniwang benchmark ay nagsiwalat ng iba’t ibang mga resulta: Mababang wers sa librispeech (1.69% test-clean, 3.19% test-other) kaibahan sa mas mataas na mga rate sa mga datasets tulad ng mga pag-record ng pulong ng AMI (11.16%). (6.32% wer) ay bahagyang mas masahol pa kaysa sa karaniwang 16kHz audio (6.05% wer). Kasama sa mga pangunahing tampok ang awtomatikong bantas, capitalization, word-level timestamp, at isang nabanggit na kakayahan para sa transkripsyon ng song-to-lyrics. Toolkit , ang platform ng kumpanya para sa pagbuo ng iba’t ibang mga modelo ng AI. Ang pagsasanay nito ay nagsimula sa pagsisimula mula sa isang wav2vec self-supervised learning checkpoint pretrained on librilight data . Ang kasunod na pagsasanay na ginamit ang malawak na dataset ng NVIDIA (~ 120,000 na oras ng pagsasalita ng Ingles), na pinagsasama ang mga mapagkukunan ng tao (tulad ng Libriseech , fisher corpus , mozilla karaniwang boses 8.0 , vctk , voxpopuli ) na may data na may pseudo-may-label mula sa youtube commons at yodas . target=”_ blangko”> interspeech 2025 Conference . Habang hindi tinukoy para sa bersyon na ito, ang mga nakaraang modelo ng parakeet, tulad ng Ang 4.5 AI Music Generation Model. Ang bilis at pinahihintulutang lisensya nito ay gawin itong isang kaakit-akit na pagpipilian para sa mga developer. Sinasabi ng NVIDIA walang personal na data na ginamit sa pagsasanay at nagbibigay ng karaniwang mga etikal na tala sa model card.