nvidia belépett a nyílt forráskódú beszédfelismerési arénába ParakeT-tdt-0.6b-v2 , egy automatikus beszédfelismerés (Asr), ASR), a HUGGINGE FACE. Az 1. ábrán a modell gyorsan megkülönböztette magát a premier pozíció biztosításával a átölelve az ASR ranglistán. Ezt a rangot 6,05%-os átlagos szó hibaarány (WER) érte el, amely a transzkripció pontatlanságának mértéke. Ez az előadás kissé elhelyezi a közelmúltban kiemelkedő nyitott modelleket, mint például a Microsoft PHI-4-Multimodal, amely februárban tartotta a vezető helyet 6,14%-os WER-rel. Az NVIDIA a Parakeet-TDT-0.6b-V2-t elosztja a megengedett cc-by-4.0 licenc Nvidia részletezésével. Az egyéb módszerekben gyakorolt ​​számos „üres” tokenek előrejelzésétől. Ezenkívül a modell teljes figyelemelő mechanizmusa lehetővé teszi, hogy kezelje a hosszú audio bemeneteket, 24 mi n Utes , egy go. A 6,05%-os átlagos WER vezeti a nyílt modellek átölelését, ahol a legnépszerűbb szabadalmaztatott rendszerek, mint például az Openai Whisper V3, továbbra is alacsonyabb hibaarányt mutatnak a szélesebb körű értékeléseknél. Az Nvidia standard referenciaértékek közötti tesztelése változatos eredményeket tárt fel: alacsony WERS a LibriseEch-en (1,69% teszt-tiszta, 3,19%-os teszt) kontraszt a magasabb rátákkal, mint például az AMI értekezlet-felvételek (11,16%). (6,32% WER) csak kissé rosszabb volt, mint a standard 16 kHz-es audio esetén (6,05% WER). A legfontosabb jellemzők közé tartozik az automatikus írásjelek, a tőkésítés, a szószintű időbélyegek és a dal-lyrics-transzkripció figyelemre méltó képessége. Toolkit , a vállalat platformja különféle AI modellek felépítéséhez. Képzése az inicializálással kezdődött a wav2vec önkiszolgáló tanulás ellenőrző pontot, amely az librilight adatokat mutat. A későbbi képzés az NVIDIA kiterjedt magtár adatkészletét (~ 120 000 órás angol beszéd) használja, amely ötvözi az emberi átírott forrásokat (például libriseech , Fisher Corpus, Mozilla Common Voice 8.0 , vctk , voxpopuli ) ál-jelölt adatokkal youtube commons és yodas . Noha nem adják meg ezt a verziót, a korábbi papagáj modellek, például a Parakeet-Tdt 1,1b , a Suno, a Parakeet-Tdt 1,1b , a Suno. 4.5 AI zenei generációs modell. Gyors és megengedő licencje vonzóvá teszi a fejlesztők számára. Az NVIDIA kijelenti, hogy a képzésben nem használtak személyes adatot, és standard etikai megjegyzéseket tartalmaznak a modellkártyán.

Categories: IT Info