nvidia已使用 parakeet-parakeet-parakeet-parakeet-0.6b-v2 ,自動識別pre nourtiation pret pred pers pre not pers pred pers, 5月1日,該模型通過確保在擁抱面孔張開的aSR asr streparderboard )上,迅速區分了自身。它以平均單詞錯誤率(WER)為6.05%,這是轉錄不准確的量度。這種表演使它比最近突出的開放型模型略有領先,例如微軟的Phi-4-Multimodal,該模型在2月以6.14%的WER佔據了領先地位。 NVIDIA在允許的 cc-by-byby-4.0.0

體系結構和速度優化

超出其準確性排名,NVIDIA突出了該模型的處理速度。公司的基準表明該模型可以在適當的硬件上大約一秒鐘的時間處理一個小時的音頻,相當於3380的高實時因子(RTFX)。

體系結構:fastConformer編碼器與令牌和效率傳感器(TDT)解碼器配對。 The TDT approach, as detailed by Nvidia, aims to accelerate inference by predicting text tokens and their durations simultaneously, reducing computational

據報導,進一步的增強速度源於使用Nvidia tensorrt的優化和 fp8量化。此外,該模型的全部注意機制使其可以處理 utes

普通的WER領導開放模型的特定擁抱面板排行榜,在該模型中,諸如OpenAI的Whisper V3之類的頂級專有系統仍顯示出更廣泛評估的錯誤率。

Parakeet-TDT-0.6B-V2的6億參數代表與諸如Whisper V3(1.5B參數)相比的相對緊湊型參數。 Nvidia’s testing across standard benchmarks revealed varied results: low WERs on LibriSpeech (1.69% test-clean, 3.19% test-other) contrast with higher rates on datasets like AMI meeting recordings (11.16%).

The model shows decent noise robustness, with average WER increasing to 8.39% at a challenging SNR of 5. Performance on simulated 8kHz telephony audio (6.32%WER)僅比標準16kHz音頻(6.05%WER)稍差。關鍵功能包括自動標點符號,資本化,單詞級時間戳以及著名的歌曲與萊errics轉錄的能力。

培訓數據和可用性

該模型是使用,該公司建造各種AI模型的平台。它的培訓始於A wav2vec自助式學習學習 fisher corpus mozilla常見語音8.0 vctk target=“ _ blank”> voxpopuli )帶有偽標記的數據,來自 blank’> youtube commons target=“ _ black”> yodas 。

nvidia計劃在

鸚鵡-塔tdt-0.6b-v2針對跨安培,霍珀,霍珀,沃爾塔,布萊克韋爾和圖靈(T4)等體系結構進行了優化的NVIDIA GPU,但據報導只能加載2GB RAM。它的速度和寬鬆的許可使其成為開發人員的吸引人選擇。 NVIDIA指出,在培訓中沒有使用個人數據,並在模型卡上提供了標準的道德筆記。