Nvidia telah memasuki arena pengenalan suara open-source dengan , pidato paru-paru (parie-tdt-tdt-0.6b-v2 , pidato paru-paru (parueT-tdt-0.6b-v2. Sekitar 1 Mei, model dengan cepat membedakan dirinya dengan mengamankan posisi premier pada memeluk wajah terbuka ASR leaderboard . Ia mencapai peringkat ini dengan tingkat kesalahan kata rata-rata 6,05% (WER), ukuran ketidakakuratan transkripsi. Kinerja ini menempatkannya sedikit di depan model terbuka lain yang baru-baru ini terkemuka, seperti Microsoft Phi-4-Multimodal, yang memegang tempat terkemuka pada bulan Februari dengan 6,14%. NVIDIA mendistribusikan parkit-tdt-0.6b-v2 di bawah permisif
Di luar peringkat akurasinya, NVIDIA menyoroti kecepatan pemrosesan model. Tolok ukur perusahaan menyarankan model ini dapat memproses satu jam audio dalam sekitar satu detik pada perangkat keras yang sesuai, sesuai dengan faktor waktu nyata terbalik (RTFX) dari 3380. as detailed by Nvidia arsitektur dan optimasi kecepatan
Peningkatan kecepatan lebih lanjut dilaporkan berasal dari optimisasi menggunakan nvidia tenrt dan fp8 kuantisasi. Additionally, the model’s full attention mechanism allows it to handle long audio inputs, up to 24 min utes , dalam satu go.
, dalam satu Go.
di seluruh cheer> Rata-rata 6,05% memimpin papan peringkat pemeluk yang spesifik untuk model terbuka, di mana sistem kepemilikan teratas seperti V3 Whisper Openai masih menunjukkan tingkat kesalahan yang lebih rendah pada evaluasi yang lebih luas.
PARAKEET-TDT-0.6B-V2 PARAMETER 600 JUTA). Pengujian NVIDIA di seluruh tolok ukur standar mengungkapkan hasil yang bervariasi: rendah Wers pada librispeech (1,69% uji-bersih, 3,19% uji-lainnya) kontras dengan tingkat yang lebih tinggi pada set data seperti rekaman pertemuan AMI (11,16%).
Model ini menunjukkan kekokohan suara yang layak, dengan rata-rata meningkat menjadi 8,39% pada 8,39% Aud A 4,39% Auding A 8,39% Audik A 8,39% Audik A 8,39% Audio. (6,32% WER) hanya sedikit lebih buruk daripada pada audio 16kHz standar (6,05% WER). Fitur utama termasuk tanda baca otomatis, kapitalisasi, cap waktu level kata, dan kemampuan yang dicatat untuk transkripsi lagu-ke-limat.
Data dan ketersediaan pelatihan
Model ini dikembangkan menggunakan wav2vec pembelajaran mandiri swasta Pos Pemeriksaan pretrained pada librispeech , fisher corpus , Mozilla Common Voice 8.0 , vctk , voxpopuli ) dengan data berlabel pseudo dari youtube commons dan yodas .
nvidia merencanakan rilis publik dari dataset granary yang mendasar target=”_ blank”> konferensi interspeech 2025 . Meskipun tidak ditentukan untuk versi ini, model parkit sebelumnya, seperti paru-tdt-tdt-non-tdt, target-tdriva-tdt, target=”_ _ blank”> paru-tdt-tdt-tdt, target-tda-tdt-tdal, target-tdriva-tdt, target-tdriva-tdt-tdriva-4.5 AI Model Generasi Musik.
PARAKEET-TDT-0.6B-V2 dioptimalkan untuk NVIDIA GPU di seluruh arsitektur seperti Ampere, Hopper, Volta, Blackwell, dan Turing (T4), tetapi dapat dilaporkan memuat hanya dengan RAM 2GB. Lisensi kecepatan dan permisifnya menjadikannya pilihan yang menarik bagi pengembang. NVIDIA menyatakan tidak ada data pribadi yang digunakan dalam pelatihan dan memberikan catatan etis standar pada kartu model.
di seluruh cheer> Rata-rata 6,05% memimpin papan peringkat pemeluk yang spesifik untuk model terbuka, di mana sistem kepemilikan teratas seperti V3 Whisper Openai masih menunjukkan tingkat kesalahan yang lebih rendah pada evaluasi yang lebih luas.
PARAKEET-TDT-0.6B-V2 PARAMETER 600 JUTA). Pengujian NVIDIA di seluruh tolok ukur standar mengungkapkan hasil yang bervariasi: rendah Wers pada librispeech (1,69% uji-bersih, 3,19% uji-lainnya) kontras dengan tingkat yang lebih tinggi pada set data seperti rekaman pertemuan AMI (11,16%).
Model ini menunjukkan kekokohan suara yang layak, dengan rata-rata meningkat menjadi 8,39% pada 8,39% Aud A 4,39% Auding A 8,39% Audik A 8,39% Audik A 8,39% Audio. (6,32% WER) hanya sedikit lebih buruk daripada pada audio 16kHz standar (6,05% WER). Fitur utama termasuk tanda baca otomatis, kapitalisasi, cap waktu level kata, dan kemampuan yang dicatat untuk transkripsi lagu-ke-limat.
Data dan ketersediaan pelatihan
Model ini dikembangkan menggunakan wav2vec pembelajaran mandiri swasta Pos Pemeriksaan pretrained pada librispeech , fisher corpus , Mozilla Common Voice 8.0 , vctk , voxpopuli ) dengan data berlabel pseudo dari youtube commons dan yodas .
nvidia merencanakan rilis publik dari dataset granary yang mendasar target=”_ blank”> konferensi interspeech 2025 . Meskipun tidak ditentukan untuk versi ini, model parkit sebelumnya, seperti paru-tdt-tdt-non-tdt, target-tdriva-tdt, target=”_ _ blank”> paru-tdt-tdt-tdt, target-tda-tdt-tdal, target-tdriva-tdt, target-tdriva-tdt-tdriva-4.5 AI Model Generasi Musik.
PARAKEET-TDT-0.6B-V2 dioptimalkan untuk NVIDIA GPU di seluruh arsitektur seperti Ampere, Hopper, Volta, Blackwell, dan Turing (T4), tetapi dapat dilaporkan memuat hanya dengan RAM 2GB. Lisensi kecepatan dan permisifnya menjadikannya pilihan yang menarik bagi pengembang. NVIDIA menyatakan tidak ada data pribadi yang digunakan dalam pelatihan dan memberikan catatan etis standar pada kartu model.
di seluruh cheer> Rata-rata 6,05% memimpin papan peringkat pemeluk yang spesifik untuk model terbuka, di mana sistem kepemilikan teratas seperti V3 Whisper Openai masih menunjukkan tingkat kesalahan yang lebih rendah pada evaluasi yang lebih luas.
PARAKEET-TDT-0.6B-V2 PARAMETER 600 JUTA). Pengujian NVIDIA di seluruh tolok ukur standar mengungkapkan hasil yang bervariasi: rendah Wers pada librispeech (1,69% uji-bersih, 3,19% uji-lainnya) kontras dengan tingkat yang lebih tinggi pada set data seperti rekaman pertemuan AMI (11,16%).
Model ini menunjukkan kekokohan suara yang layak, dengan rata-rata meningkat menjadi 8,39% pada 8,39% Aud A 4,39% Auding A 8,39% Audik A 8,39% Audik A 8,39% Audio. (6,32% WER) hanya sedikit lebih buruk daripada pada audio 16kHz standar (6,05% WER). Fitur utama termasuk tanda baca otomatis, kapitalisasi, cap waktu level kata, dan kemampuan yang dicatat untuk transkripsi lagu-ke-limat.
Data dan ketersediaan pelatihan
Model ini dikembangkan menggunakan wav2vec pembelajaran mandiri swasta Pos Pemeriksaan pretrained pada librispeech , fisher corpus , Mozilla Common Voice 8.0 , vctk , voxpopuli ) dengan data berlabel pseudo dari youtube commons dan yodas .
nvidia merencanakan rilis publik dari dataset granary yang mendasar target=”_ blank”> konferensi interspeech 2025 . Meskipun tidak ditentukan untuk versi ini, model parkit sebelumnya, seperti paru-tdt-tdt-non-tdt, target-tdriva-tdt, target=”_ _ blank”> paru-tdt-tdt-tdt, target-tda-tdt-tdal, target-tdriva-tdt, target-tdriva-tdt-tdriva-4.5 AI Model Generasi Musik.
PARAKEET-TDT-0.6B-V2 dioptimalkan untuk NVIDIA GPU di seluruh arsitektur seperti Ampere, Hopper, Volta, Blackwell, dan Turing (T4), tetapi dapat dilaporkan memuat hanya dengan RAM 2GB. Lisensi kecepatan dan permisifnya menjadikannya pilihan yang menarik bagi pengembang. NVIDIA menyatakan tidak ada data pribadi yang digunakan dalam pelatihan dan memberikan catatan etis standar pada kartu model.
di seluruh cheer> Rata-rata 6,05% memimpin papan peringkat pemeluk yang spesifik untuk model terbuka, di mana sistem kepemilikan teratas seperti V3 Whisper Openai masih menunjukkan tingkat kesalahan yang lebih rendah pada evaluasi yang lebih luas.
PARAKEET-TDT-0.6B-V2 PARAMETER 600 JUTA). Pengujian NVIDIA di seluruh tolok ukur standar mengungkapkan hasil yang bervariasi: rendah Wers pada librispeech (1,69% uji-bersih, 3,19% uji-lainnya) kontras dengan tingkat yang lebih tinggi pada set data seperti rekaman pertemuan AMI (11,16%).
Model ini menunjukkan kekokohan suara yang layak, dengan rata-rata meningkat menjadi 8,39% pada 8,39% Aud A 4,39% Auding A 8,39% Audik A 8,39% Audik A 8,39% Audio. (6,32% WER) hanya sedikit lebih buruk daripada pada audio 16kHz standar (6,05% WER). Fitur utama termasuk tanda baca otomatis, kapitalisasi, cap waktu level kata, dan kemampuan yang dicatat untuk transkripsi lagu-ke-limat.
Data dan ketersediaan pelatihan
Model ini dikembangkan menggunakan wav2vec pembelajaran mandiri swasta Pos Pemeriksaan pretrained pada librispeech , fisher corpus , Mozilla Common Voice 8.0 , vctk , voxpopuli ) dengan data berlabel pseudo dari youtube commons dan yodas .
nvidia merencanakan rilis publik dari dataset granary yang mendasar target=”_ blank”> konferensi interspeech 2025 . Meskipun tidak ditentukan untuk versi ini, model parkit sebelumnya, seperti paru-tdt-tdt-non-tdt, target-tdriva-tdt, target=”_ _ blank”> paru-tdt-tdt-tdt, target-tda-tdt-tdal, target-tdriva-tdt, target-tdriva-tdt-tdriva-4.5 AI Model Generasi Musik.
PARAKEET-TDT-0.6B-V2 dioptimalkan untuk NVIDIA GPU di seluruh arsitektur seperti Ampere, Hopper, Volta, Blackwell, dan Turing (T4), tetapi dapat dilaporkan memuat hanya dengan RAM 2GB. Lisensi kecepatan dan permisifnya menjadikannya pilihan yang menarik bagi pengembang. NVIDIA menyatakan tidak ada data pribadi yang digunakan dalam pelatihan dan memberikan catatan etis standar pada kartu model.
di seluruh cheer> Rata-rata 6,05% memimpin papan peringkat pemeluk yang spesifik untuk model terbuka, di mana sistem kepemilikan teratas seperti V3 Whisper Openai masih menunjukkan tingkat kesalahan yang lebih rendah pada evaluasi yang lebih luas.
PARAKEET-TDT-0.6B-V2 PARAMETER 600 JUTA). Pengujian NVIDIA di seluruh tolok ukur standar mengungkapkan hasil yang bervariasi: rendah Wers pada librispeech (1,69% uji-bersih, 3,19% uji-lainnya) kontras dengan tingkat yang lebih tinggi pada set data seperti rekaman pertemuan AMI (11,16%).
Model ini menunjukkan kekokohan suara yang layak, dengan rata-rata meningkat menjadi 8,39% pada 8,39% Aud A 4,39% Auding A 8,39% Audik A 8,39% Audik A 8,39% Audio. (6,32% WER) hanya sedikit lebih buruk daripada pada audio 16kHz standar (6,05% WER). Fitur utama termasuk tanda baca otomatis, kapitalisasi, cap waktu level kata, dan kemampuan yang dicatat untuk transkripsi lagu-ke-limat.
Data dan ketersediaan pelatihan
Model ini dikembangkan menggunakan wav2vec pembelajaran mandiri swasta Pos Pemeriksaan pretrained pada librispeech , fisher corpus , Mozilla Common Voice 8.0 , vctk , voxpopuli ) dengan data berlabel pseudo dari youtube commons dan yodas .
nvidia merencanakan rilis publik dari dataset granary yang mendasar target=”_ blank”> konferensi interspeech 2025 . Meskipun tidak ditentukan untuk versi ini, model parkit sebelumnya, seperti paru-tdt-tdt-non-tdt, target-tdriva-tdt, target=”_ _ blank”> paru-tdt-tdt-tdt, target-tda-tdt-tdal, target-tdriva-tdt, target-tdriva-tdt-tdriva-4.5 AI Model Generasi Musik.
PARAKEET-TDT-0.6B-V2 dioptimalkan untuk NVIDIA GPU di seluruh arsitektur seperti Ampere, Hopper, Volta, Blackwell, dan Turing (T4), tetapi dapat dilaporkan memuat hanya dengan RAM 2GB. Lisensi kecepatan dan permisifnya menjadikannya pilihan yang menarik bagi pengembang. NVIDIA menyatakan tidak ada data pribadi yang digunakan dalam pelatihan dan memberikan catatan etis standar pada kartu model.
PARAKEET-TDT-0.6B-V2 PARAMETER 600 JUTA). Pengujian NVIDIA di seluruh tolok ukur standar mengungkapkan hasil yang bervariasi: rendah Wers pada librispeech (1,69% uji-bersih, 3,19% uji-lainnya) kontras dengan tingkat yang lebih tinggi pada set data seperti rekaman pertemuan AMI (11,16%).
Model ini menunjukkan kekokohan suara yang layak, dengan rata-rata meningkat menjadi 8,39% pada 8,39% Aud A 4,39% Auding A 8,39% Audik A 8,39% Audik A 8,39% Audio. (6,32% WER) hanya sedikit lebih buruk daripada pada audio 16kHz standar (6,05% WER). Fitur utama termasuk tanda baca otomatis, kapitalisasi, cap waktu level kata, dan kemampuan yang dicatat untuk transkripsi lagu-ke-limat.
Data dan ketersediaan pelatihan
Model ini dikembangkan menggunakan wav2vec pembelajaran mandiri swasta Pos Pemeriksaan pretrained pada librispeech , fisher corpus , Mozilla Common Voice 8.0 , vctk , voxpopuli ) dengan data berlabel pseudo dari youtube commons dan yodas .
nvidia merencanakan rilis publik dari dataset granary yang mendasar target=”_ blank”> konferensi interspeech 2025 . Meskipun tidak ditentukan untuk versi ini, model parkit sebelumnya, seperti paru-tdt-tdt-non-tdt, target-tdriva-tdt, target=”_ _ blank”> paru-tdt-tdt-tdt, target-tda-tdt-tdal, target-tdriva-tdt, target-tdriva-tdt-tdriva-4.5 AI Model Generasi Musik.
PARAKEET-TDT-0.6B-V2 dioptimalkan untuk NVIDIA GPU di seluruh arsitektur seperti Ampere, Hopper, Volta, Blackwell, dan Turing (T4), tetapi dapat dilaporkan memuat hanya dengan RAM 2GB. Lisensi kecepatan dan permisifnya menjadikannya pilihan yang menarik bagi pengembang. NVIDIA menyatakan tidak ada data pribadi yang digunakan dalam pelatihan dan memberikan catatan etis standar pada kartu model.