nvidia ha ingresado a la arena de reconocimiento de voz de código abierto con parakeet-tdt-0.6b-v2 , un modelo de discurso automático (asr) ahora presentado en el abrazo de abrazo. El 1 de mayo, el modelo se distinguió rápidamente al asegurar la posición principal en abrazando la cara de ritmo ASR ASR . Logró este rango con una tasa de error de palabras promedio del 6.05% (WER), una medida de la inexactitud de la transcripción. Este rendimiento lo coloca ligeramente por delante de otros modelos abiertos recientemente prominentes, como el Phi-4-Multimodal de Microsoft, que ocupó el lugar principal en febrero con un 6.14% WER. Nvidia está distribuyendo Parakeet-tdt-0.6b-v2 bajo el permisivo cc-by-4.0 licencia , facilitando su uso en el uso en el uso en el uso en el uso de la licencia , facilitando su uso en el uso en el uso en el uso de la licencia , en el uso de sus usos en el uso de su uso , en el uso de sus usos. Aplicaciones.

Optimizaciones de arquitectura y velocidad

Más allá de su clasificación de precisión, NVIDIA destaca la velocidad de procesamiento del modelo. Los puntos de referencia de la empresa sugieren que el modelo puede procesar una hora de audio en aproximadamente un segundo en el hardware apropiado, correspondiente a un alto factor de tiempo real inverso (RTFX) de 3380.

como se detalla por nvidia , tiene como objetivo acelerar la influencia de la influencia predicción. La sobrecarga computacional de la predicción de numerosos tokens”en blanco”comunes en otros métodos.

Las mejoras de velocidad adicionales se derivan de las optimizaciones utilizando nvidia tensorrt y FP8 Cuantización . Además, el mecanismo de atención total del modelo le permite manejar Intrupciones de audio largos, hasta 24 mii n utes , en una sola vez

rendimiento a través de compartimentos y condiciones

El promedio de WER lidera la tabla de clasificación específica de abrazaderas para modelos abiertos, donde los sistemas propietarios superiores como Whisper V3 de OpenAI todavía demuestran tasas de error más bajas en evaluaciones más amplias.

Parakeet-TDT-0.6B-V2 Parámetros que representan un tamaño relativamente compacto en comparación con modelos como Whisper V3 (parámetros 1.5B). Las pruebas de NVIDIA a través de puntos de referencia estándar revelaron resultados variados: bajos WERS en Librispeech (1.69% de prueba de prueba, 3.19% de prueba) contrasta con tasas más altas en conjuntos de datos como las grabaciones de reuniones de AMI (11.16%).

El modelo muestra una robustez de ruido, con un promedio aumentando a 8.39% en un SNR desafiante de 5. (6.32% WER) fue solo un poco peor que en el audio estándar de 16 kHz (6.05% WER). Las características clave incluyen puntuación automática, capitalización, marcas de tiempo a nivel de palabras y una capacidad notable para la transcripción de Song-to-Lyrics.

Datos de entrenamiento y disponibilidad

El modelo se desarrolló utilizando el , la plataforma de la compañía para construir varios modelos de IA. Su entrenamiento comenzó con la inicialización de A wav2vec auto-supervisado aprendizaje El punto de control previo previo en data de libriLight . La capacitación posterior utilizó el extenso conjunto de datos granarios de Nvidia (~ 120,000 horas de discurso inglés), que combina fuentes transcritas humanas (como LibrisPech , Fisher Corpus , Mozilla Common Voice 8.0 , vctk , voxpopuli ) con datos con pseudo etiquetados de youtube commons y yodas .

nvidia planea una versión pública del conjunto de datos de granero subyacente después del InterSepeech 2025 Conference . Si bien no se especifica para esta versión, los modelos anteriores de Paraket, como paraket-tdt 1.1b , se involucró con collabe.iiatorsi-, con collabs con collab. Lanzó su modelo de generación de música de 4.5 AI.

PARAKET-TDT-0.6B-V2 está optimizado para las GPU NVIDIA a través de arquitecturas como Ampere, Hopper, Volta, Blackwell y Turing (T4), pero se puede cargar con solo 2 GB de RAM. Su velocidad y licencia permisiva lo convierten en una opción atractiva para los desarrolladores. Nvidia afirma que no se utilizaron datos personales en la capacitación y proporcionan notas éticas estándar en la tarjeta modelo.

.