Η NVIDIA εισήλθε στην αρένα αναγνώρισης ομιλίας ανοιχτού κώδικα με parakeet-tdt-0.6b-v2 Γύρω από την 1η Μαΐου, το μοντέλο διακρίθηκε γρήγορα με την εξασφάλιση της πρώτης θέσης στο Hugging Face Open Leaderboard . Επέστρεψε αυτή την κατάταξη με μέσο όρο σφάλματος λέξεων 6,05% (WER), μέτρο ανακρίβειας μεταγραφής. Αυτή η απόδοση το τοποθετεί ελαφρώς μπροστά από άλλα πρόσφατα προεξέχοντα ανοιχτά μοντέλα, όπως το Phi-4-Multimodal της Microsoft, τα οποία κατείχαν το κορυφαίο σημείο τον Φεβρουάριο με 6,14% WER. Η Nvidia διανέμει parakeet-tdt-0.6b-v2 κάτω από το επιτρεπόμενο cc-by-4.0 micendits/a> Εφαρμογές. Τα σημεία αναφοράς της εταιρείας υποδεικνύουν ότι το μοντέλο μπορεί να επεξεργαστεί μια ώρα ήχου σε περίπου ένα δευτερόλεπτο στο κατάλληλο υλικό, που αντιστοιχεί σε έναν υψηλό αντίστροφο παράγοντα πραγματικού χρόνου (RTFX) του 3380. Αρχιτεκτονική: Ένας κωδικοποιητής FastConformer συνδυάζεται με αποκωδικοποιητή μετατροπέα συμβόλων και διάρκειας (TDT). Η προσέγγιση TDT, όπως λεπτομερώς από το nvidia , θα επιταχύνει την επιτάχυνση του κελύφους και την αποζημίωση και το durations τους, μειώνει την υποδιαίρεση του texting και την αναλογία του t tateks και του durations. Τα γενικά έξοδα από την πρόβλεψη πολλών «κενών» μαρκών που είναι κοινά σε άλλες μεθόδους.
Οι περαιτέρω βελτιώσεις ταχύτητας προέρχονται από βελτιστοποιήσεις χρησιμοποιώντας το NVIDIA TENSORRT και το ποσοτικοποίηση FP8 . Επιπλέον, ο μηχανισμός πλήρους προσοχής του μοντέλου του επιτρέπει να χειρίζεται utes 6.05% Ο μέσος όρος WER οδηγεί το συγκεκριμένο leaderboard προσώπου για ανοιχτά μοντέλα, όπου τα κορυφαία ιδιόκτητα συστήματα όπως το Whisper V3 του OpenAi παρουσιάζουν ακόμα χαμηλότερα ποσοστά σφάλματος στις ευρύτερες αξιολογήσεις. Οι δοκιμές της Nvidia σε τυπικά σημεία αναφοράς αποκάλυψαν ποικίλα αποτελέσματα: χαμηλά WERS σε Librispeech (1,69% δοκιμή-καθαρή, 3,19% δοκιμή-άλλο) αντίθετο με υψηλότερα ποσοστά σε σύνολα δεδομένων όπως AMI Meeting Recordings (11,16%). (6,32% WER) ήταν μόνο ελαφρώς χειρότερη από ό, τι στον τυπικό ήχο 16kHz (6,05% WER). Τα βασικά χαρακτηριστικά περιλαμβάνουν την αυτόματη στίξη, την κεφαλαιοποίηση, τα χρονικά σήματα σε επίπεδο λέξεων και την αξιοσημείωτη ικανότητα για τη μεταγραφή τραγουδιού προς-λυκομών. Toolkit , η πλατφόρμα της εταιρείας για την κατασκευή διαφόρων μοντέλων AI. Η εκπαίδευσή του ξεκίνησε με την αρχικοποίηση από το a wav2vec-supervised learning Το σημείο ελέγχου που προ-προετοιμάστηκε στο datawilight data <.a>. Η επακόλουθη κατάρτιση χρησιμοποίησε το εκτεταμένο σύνολο δεδομένων της NVIDIA (~ 120.000 ώρες αγγλικής ομιλίας), το οποίο συνδυάζει πηγές που μεταγράφονται από τον άνθρωπο (όπως librispeech , fisher corpus Target=”_ Blank”> Mozilla Common Voice 8.0 , vctk , target=”_ blank”> voxpopuli ) με ψευδο-επισημασμένα δεδομένα από youtube commons και yodas . 2025 Συνέδριο . Παρόλο που δεν καθορίζεται για αυτήν την έκδοση, τα προηγούμενα μοντέλα parakeet, όπως το
Parakeet-TDT-0.6B-V2 είναι βελτιστοποιημένο για NVIDIA GPU σε αρχιτεκτονικές όπως AMPERE, HOPPER, VOLTA, Blackwell και Turing (T4), αλλά μπορεί να φορτώσει μόνο 2GB RAM. Η ταχύτητα και η επιτρεπόμενη άδεια της καθιστούν μια ελκυστική επιλογή για τους προγραμματιστές. Το NVIDIA δηλώνει ότι δεν χρησιμοποιήθηκαν προσωπικά δεδομένα στην εκπαίδευση και παρέχουν τυπικές δεοντολογικές σημειώσεις στην κάρτα μοντέλου.