NVIDIA merilis model pengenalan ucapan parkit AI berkecepatan tinggi, mengklaim tempat teratas di papan peringkat

Nvidia telah memasuki arena pengenalan suara open-source dengan , pidato paru-paru (parie-tdt-tdt-0.6b-v2 , pidato paru-paru (parueT-tdt-0.6b-v2. Sekitar 1 Mei, model dengan cepat membedakan dirinya dengan mengamankan posisi premier pada memeluk wajah terbuka ASR leaderboard . Ia mencapai peringkat ini dengan tingkat kesalahan kata rata-rata 6,05% (WER), ukuran ketidakakuratan transkripsi. Kinerja ini menempatkannya sedikit di depan model terbuka lain yang baru-baru ini terkemuka, seperti Microsoft Phi-4-Multimodal, yang memegang tempat terkemuka pada bulan Februari dengan 6,14%. NVIDIA mendistribusikan parkit-tdt-0.6b-v2 di bawah permisif

arsitektur dan optimasi kecepatan

Di luar peringkat akurasinya, NVIDIA menyoroti kecepatan pemrosesan model. Tolok ukur perusahaan menyarankan model ini dapat memproses satu jam audio dalam sekitar satu detik pada perangkat keras yang sesuai, sesuai dengan faktor waktu nyata terbalik (RTFX) dari 3380.

as detailed by Nvidia, aims to accelerate inference by predicting text tokens and their durations simultaneously, reducing computational overhead dari memprediksi banyak token’kosong’yang umum dalam metode lain.

Peningkatan kecepatan lebih lanjut dilaporkan berasal dari optimisasi menggunakan nvidia tenrt dan fp8 kuantisasi. Additionally, the model’s full attention mechanism allows it to handle long audio inputs, up to 24 min utes , dalam satu go.

, dalam satu Go.

di seluruh cheer> Rata-rata 6,05% memimpin papan peringkat pemeluk yang spesifik untuk model terbuka, di mana sistem kepemilikan teratas seperti V3 Whisper Openai masih menunjukkan tingkat kesalahan yang lebih rendah pada evaluasi yang lebih luas.

PARAKEET-TDT-0.6B-V2 PARAMETER 600 JUTA). Pengujian NVIDIA di seluruh tolok ukur standar mengungkapkan hasil yang bervariasi: rendah Wers pada librispeech (1,69% uji-bersih, 3,19% uji-lainnya) kontras dengan tingkat yang lebih tinggi pada set data seperti rekaman pertemuan AMI (11,16%).

Model ini menunjukkan kekokohan suara yang layak, dengan rata-rata meningkat menjadi 8,39% pada 8,39% Aud A 4,39% Auding A 8,39% Audik A 8,39% Audik A 8,39% Audio. (6,32% WER) hanya sedikit lebih buruk daripada pada audio 16kHz standar (6,05% WER). Fitur utama termasuk tanda baca otomatis, kapitalisasi, cap waktu level kata, dan kemampuan yang dicatat untuk transkripsi lagu-ke-limat.

Data dan ketersediaan pelatihan

Model ini dikembangkan menggunakan wav2vec pembelajaran mandiri swasta Pos Pemeriksaan pretrained pada librispeech , fisher corpus , Mozilla Common Voice 8.0 , vctk , voxpopuli ) dengan data berlabel pseudo dari youtube commons dan yodas .

nvidia merencanakan rilis publik dari dataset granary yang mendasar target=”_ blank”> konferensi interspeech 2025 . Meskipun tidak ditentukan untuk versi ini, model parkit sebelumnya, seperti paru-tdt-tdt-non-tdt, target-tdriva-tdt, target=”_ _ blank”> paru-tdt-tdt-tdt, target-tda-tdt-tdal, target-tdriva-tdt, target-tdriva-tdt-tdriva-4.5 AI Model Generasi Musik.

PARAKEET-TDT-0.6B-V2 dioptimalkan untuk NVIDIA GPU di seluruh arsitektur seperti Ampere, Hopper, Volta, Blackwell, dan Turing (T4), tetapi dapat dilaporkan memuat hanya dengan RAM 2GB. Lisensi kecepatan dan permisifnya menjadikannya pilihan yang menarik bagi pengembang. NVIDIA menyatakan tidak ada data pribadi yang digunakan dalam pelatihan dan memberikan catatan etis standar pada kartu model.

NVIDIA merilis model pengenalan ucapan parkit AI berkecepatan tinggi, mengklaim tempat teratas di papan peringkat

Published by All Things Windows on May 6, 2025

arsitektur dan optimasi kecepatan

, dalam satu Go.

Data dan ketersediaan pelatihan

IT Info

Subsistem Windows untuk Linux menambahkan fedora sebagai distribusi yang didukung secara resmi

IT Info

Google Rolls out Ai Max untuk mengotomatisasi kampanye iklan pencarian

IT Info

Aplikasi Copilot di Windows diatur ke AutoStart pada login sistem

NVIDIA merilis model pengenalan ucapan parkit AI berkecepatan tinggi, mengklaim tempat teratas di papan peringkat

Published by All Things Windows on May 6, 2025

arsitektur dan optimasi kecepatan

, dalam satu Go. (adsbygoogle = window.adsbygoogle || []).push({});

Data dan ketersediaan pelatihan

Related Posts

IT Info

Subsistem Windows untuk Linux menambahkan fedora sebagai distribusi yang didukung secara resmi

IT Info

Google Rolls out Ai Max untuk mengotomatisasi kampanye iklan pencarian

IT Info

Aplikasi Copilot di Windows diatur ke AutoStart pada login sistem

, dalam satu Go.