NVIDIA đã tham gia vào đấu trường nhận dạng giọng nói nguồn mở với Khoảng ngày 1 tháng 5, mô hình nhanh chóng tự phân biệt bằng cách đảm bảo vị trí hàng đầu trên ôm mặt mở đầu ASR . Nó đã đạt được thứ hạng này với tỷ lệ lỗi từ trung bình (WER) trung bình 6.05%, một thước đo không chính xác phiên mã. Màn trình diễn này đặt nó một chút trước các mẫu mở nổi bật gần đây khác, chẳng hạn như Microsoft, Phi-4-Multimodal, giữ vị trí hàng đầu vào tháng 2 với 6,14% WER. NVIDIA đang phân phối Parakeet-TDT-0.6B-V2 theo cách cho phép , nền tảng của công ty để xây dựng các mẫu AI khác nhau. Việc đào tạo của nó bắt đầu với việc khởi tạo từ A WAV2VEC tự hỗ trợ học tập Đào tạo tiếp theo đã sử dụng bộ dữ liệu Granary rộng rãi của NVIDIA (~ 120.000 giờ phát biểu tiếng Anh), kết hợp các nguồn được sao chép của con người (như href=”http://www.lrec-conf.org/proceedings/lrec2004/pdf/767.pdf”Target=”_ Blank”> Fisher Corpus , Mozilla Common Voice 8.0 , Target=”_ Blank”> Voxpopuli ) với dữ liệu được dán nhãn giả từ yodas . Hội nghị 2025 . Mặc dù không được chỉ định cho phiên bản này, các mô hình parakeet trước đó, chẳng hạn như
Categories: IT Info