nvidia est entré dans l’arène de reconnaissance de la parole open source avec Parkeet-tdt-0.6b-v2 Le 1er mai, le modèle s’est rapidement distingué en sécurisant la position de première première sur le Face étreint ouvre le classement ASR . Il a atteint ce rang avec un taux d’erreur de mot moyen de 6,05% (WER), une mesure de l’inexactitude de la transcription. Cette performance le place légèrement devant d’autres modèles ouverts récemment proéminents, tels que PHI-4-Multimodal de Microsoft, qui détenait la place leader en février avec un WER de 6,14%. Nvidia distribue la parakeet-tdt-0.6b-v2 sous le permissive CC-By-4.0 Licence

Architecture et optimisations de vitesse

Au-delà de son classement de précision, NVIDIA met en évidence la vitesse de traitement du modèle. Les références de l’entreprise suggèrent que le modèle peut traiter une heure d’audio en environ une seconde sur le matériel approprié, correspondant à un facteur inverse inverse (RTFX) élevé de 3380.

As Au-dessus de la prédiction de nombreux jetons «vierges» communs dans d’autres méthodes.

Les améliorations de vitesse supplémentaires proviennent d’optimisations en utilisant nvidia Tensorrt et fp8 quantification . De plus, le mécanisme d’attention complet du modèle lui permet de gérer longue entrées audio, jusqu’à 24 mi href=”https://www.unite.ai/nvidia-parakeet-tdt-0-6b-v2-enterprise-grade-speech-recognition-with-ai-precision/”target=”_ Blank”> utes , en une seule fois

La moyenne de 6,05% WER mène le classement spécifique des étreintes de face pour les modèles ouverts, où les meilleurs systèmes propriétaires comme Whisper V3 d’Openai démontrent toujours des taux d’erreur plus bas sur les évaluations plus larges.

Parakeet-TDT-0.6B-V2 Les 600 millions de paramètres représentent une taille relativement compacte par rapport aux modèles comme Whisper V3 (1.5B Paramètres). Les tests de Nvidia entre les références standard ont révélé des résultats variés: un faible WERS sur LibrisPeleeCH (1,69% d’essai-nettoyage, 3,19% de test-autre) contraste avec des taux plus élevés sur des ensembles de données tels que les enregistrements de rencontre AMI (11,16%).

Le modèle montre une robustesse de bruit décente, avec une moyenne de Wer à 8,39% à un SNR de la diffusion de 8k. (6,32% Wer) n’était que légèrement pire que sur l’audio standard de 16 kHz (6,05% WER). Key features include automatic punctuation, capitalization, word-level timestamps, and a noted ability for song-to-lyrics transcription.

Training Data and Availability

The model was developed using the Nvidia NeMo Toolkit , la plate-forme de la société pour la construction de divers modèles d’IA. Sa formation a commencé par l’initialisation à partir d’un wav2vec auto-supervisé Learning Checkpoint Pretrainned sur Boîtres de bibliothèque . La formation ultérieure a utilisé le vaste ensemble de données de canaries de NVIDIA (~ 120 000 heures de discours d’anglais), qui combine des sources transcrites humaines (comme librisrisonech , Fisher Corpus , Mozilla Common Voice 8.0 , vctk , Voxpopuli ) avec des données pseudo-étiquetées de YouTube Commons et yodas .

nvidia prévoit une version publique de l’ensemble de données sous-jacente après le , a impliqué une collaboration avec Suno. 4.5 Modèle de génération de musique AI.

Parakeet-TDT-0.6b-V2 est optimisé pour les GPU NVIDIA à travers des architectures comme Ampère, Hopper, Volta, Blackwell et Turing (T4), mais pourrait se charger avec seulement 2 Go de RAM. Sa vitesse et sa licence permissive en font une option attrayante pour les développeurs. NVIDIA déclare qu’aucune donnée personnelle n’a été utilisée dans la formation et fournit des notes éthiques standard sur la carte modèle.