nvidia hat in die Open-Source-Spracherkennungsarena mit SALAKEET-TDT-0.6B-V2 -Gabwach-Zugaberkennung (ASR)-Modell auf Hacking-Gesicht. Am 1. Mai unterscheidete sich das Modell schnell, indem er die führende Position auf der umarmtes Gesicht öffnen ASR Raderboard sichern. Es erreichte diesen Rang mit einer durchschnittlichen Wortfehlerrate von 6,05% (WER), einem Maß für die Ungenauigkeit der Transkription. Diese Aufführung stellt ihn leicht vor anderen kürzlich prominenten offenen Modellen wie Microsofts Phi-4-Multimodal, das im Februar den führenden Platz mit 6,14% war. Nvidia verteilt shortheset-tdt-0.6b-v2 unter der freizügigen als detaillierte Nvidia , zielt darauf ab, zu beschleunigen. Overhead aus der Vorhersage zahlreicher „leerer“ Tokens, die bei anderen Methoden häufig sind. Darüber hinaus ermöglicht der vollständige Aufmerksamkeitsmechanismus des Modells mit long Audio-Eingänge bis zu 24 mi n utes , in einem GO. Durchschnittlich führt das spezifische Umarmungs-Gesichts-Ranglisten für Open-Modelle an, in dem Top-proprietäre Systeme wie OpenAIs Whisper V3 bei breiteren Bewertungen immer noch niedrigere Fehlerraten zeigen. Die NVIDIA-Tests über Standard-Benchmarks zeigten unterschiedliche Ergebnisse: Niedrige Were bei Librispeech (1,69% Test-Clean, 3,19% Test-Other) Kontrast zu höheren Raten für Datensätze wie AMI-Meeting-Aufzeichnungen (11,16%). (6,32% WER) waren nur geringfügig schlechter als bei Standard-16-kHz-Audio (6,05% WER). Zu den wichtigsten Merkmalen gehören automatische Interpunktion, Kapitalisierung, Zeitstempel auf Wortebene und eine bekannte Fähigkeit zur Transkription von Song-zu-Lyrics. Toolkit , die Plattform des Unternehmens zum Aufbau verschiedener KI-Modelle. Its training began with initialization from a wav2vec self-supervised learning checkpoint pretrained on LibriLight data. Nachfolgendes Training verwendete das umfangreiche Getreidedatensatz von NVIDIA (~ 120.000 Stunden englischer Sprache), das menschlich transkribierte Quellen kombiniert (wie librispeech , Fisher Corpus , Mozilla Common Voice 8.0 , vctk , voxpopuli ) mit pseudo-labeled-Daten von youtube commons und yodas . 2025 Konferenz . Während dies für diese Version nicht angegeben ist, waren frühere Aneinandersetzungsmodelle wie die