nvidiaは、 parakeet-tdt-0.6b-v2 hugging face open asr readerboard で最高の位置を確保することにより、すぐにそれ自体を区別しました。このランクは、平均ワードエラー率(WER)6.05%で、転写の不正確さの尺度で達成されました。このパフォーマンスは、MicrosoftのPhi-4-Multimodalなど、最近著名なオープンモデルよりもわずかに先を行っており、2月に6.14%の主要スポットを獲得しました。 Nvidia is distributing Parakeet-TDT-0.6B-v2 under the permissive CC-BY-4.0 license, facilitating its use in commercialアプリケーション。
アーキテクチャと速度の最適化
その精度ランキングを超えて、NVIDIAはモデルの処理速度を強調しています。会社のベンチマークは、モデルが適切なハードウェアで約1秒で1時間のオーディオを処理できることを示唆しています。これは、3380の高い逆リアルタイム係数(RTFX)に対応しています。アーキテクチャ:トークンアンドデュータートランスデューサー(TDT)デコーダーとペアになったFastConformerエンコーダー。 TDTアプローチ、 long audio inputs href=”https://www.unite.ai/nvidia-parakeet-tdt-0-6b-v2-enterprise-greade-preceech-with-ai-precision/”ターゲット=”_ blank”> utes 6.05%の平均WERは、オープンモデルの特定の抱き合ったフェイスリーダーボードをリードしています。これにより、OpenaiのWhisper V3のような最高の専有システムは、より広範な評価で依然として低いエラー率を示しています。 NVIDIAの標準的なベンチマーク全体でのテストはさまざまな結果を明らかにしました:Librispeechの低いWers(1.69%テストクリーン、3.19%テスト-other)は、AMIミーティングレコーディング(11.16%)のようなデータセットのより高いレートとコントラスト(11.16%)。 (6.32%wer)は、標準の16kHzオーディオ(6.05%wer)よりもわずかに悪化していました。主な機能には、自動句読点、大文字、単語レベルのタイムスタンプ、および歌からリックへの転写の著名な能力が含まれます。ツールキット、さまざまなAIモデルを構築するための同社のプラットフォーム。そのトレーニングは、a wav2vec self-supervised Learning librilight librispeehe 、フィッシャーコーパス、 mozilla common voice 8.0 、 vctk 、 voxpopuli ) yodas 。 2025会議。このバージョンでは指定されていませんが、 jocolab.1bbis whatdt 1.1b のaabidt-tdt>