Bộ phận nghiên cứu AI của Meta đã phát hành Omnilingual ASR, một hệ thống nhận dạng giọng nói nguồn mở mạnh mẽ hỗ trợ hơn 1.600 ngôn ngữ.

Dự án này nhằm mục đích tạo ra một công cụ phiên âm phổ quát, lần đầu tiên cung cấp khả năng hỗ trợ AI cho 500 ngôn ngữ. Được phát triển bởi nhóm Nghiên cứu AI Cơ bản (FAIR) của Meta, các mô hình này được cung cấp theo giấy phép cho phép cho cả mục đích nghiên cứu và thương mại.

Sáng kiến ​​này tìm cách thu hẹp khoảng cách kỹ thuật số bằng cách giúp công nghệ chuyển giọng nói thành văn bản chất lượng cao có thể tiếp cận được với các cộng đồng ngôn ngữ ít hiểu biết trên toàn cầu. Bộ sản phẩm bao gồm nhiều kích cỡ mô hình khác nhau, từ phiên bản nhẹ dành cho thiết bị di động đến mô hình quy mô lớn để có độ chính xác tối đa.

Bước nhảy vọt về phạm vi bao phủ ngôn ngữ

Quy mô của ASR đa ngôn ngữ thể hiện một cột mốc quan trọng đối với công nghệ giọng nói. Sự hỗ trợ của nó cho hơn 1.600 ngôn ngữ giúp mở rộng đáng kể khả năng tiếp cận toàn cầu, đặc biệt là khi so sánh với các hệ thống độc quyền hàng đầu như Whisper của OpenAI, bao gồm khoảng 100 ngôn ngữ.

Đối với hàng trăm cộng đồng ngôn ngữ, điều này đánh dấu lần đầu tiên lời nói của họ có thể được phiên âm bởi hệ thống AI, mở ra những khả năng mới cho giao tiếp, giáo dục và bảo tồn kỹ thuật số.

Để đạt được quy mô này, nhóm FAIR của Meta đã tích hợp các bộ dữ liệu có sẵn công khai với Các bản ghi có nguồn gốc từ cộng đồng được thu thập thông qua quan hệ đối tác với các tổ chức như Mozilla’s Common Voice.

Nỗ lực hợp tác này rất quan trọng để tiếp cận các ngôn ngữ hiện có ít hoặc không có dấu ấn kỹ thuật số. Nhằm thúc đẩy sự đổi mới hơn nữa, Meta cũng đang phát hành Danh sách ASR đa ngôn ngữ, một bộ sưu tập giọng nói được phiên âm độc đáo bằng 350 ngôn ngữ chưa được cung cấp đầy đủ, theo giấy phép CC-BY. Bản thân tập dữ liệu này đã là một đóng góp lớn cho cộng đồng nghiên cứu toàn cầu.

Thông báo của Meta nêu bật hiệu suất mạnh mẽ của hệ thống trong bối cảnh ngôn ngữ rộng lớn này. Mô hình 7 tỷ tham số hàng đầu, LLM-ASR, đạt tỷ lệ lỗi ký tự (CER) dưới 10 cho 78% ngôn ngữ được hỗ trợ.

Mức độ chính xác này khiến mô hình này trở thành một công cụ thiết thực cho nhiều ứng dụng, vượt ra ngoài các trường hợp sử dụng thử nghiệm sang triển khai trong thế giới thực.

Mở rộng cộng đồng sức mạnh kiến trúc LLM và mã nguồn mở

Không giống như các hệ thống ASR truyền thống yêu cầu mở rộng tinh chỉnh, ASR đa ngôn ngữ giới thiệu tính năng mới “Mang ngôn ngữ của riêng bạn”. Khả năng này, lấy cảm hứng từ các mô hình ngôn ngữ lớn, cho phép người dùng hỗ trợ thêm cho các ngôn ngữ hoàn toàn mới bằng cách chỉ cung cấp một số mẫu văn bản và âm thanh được ghép nối.

Phương pháp học tập trong ngữ cảnh như vậy giúp loại bỏ nhu cầu về bộ dữ liệu khổng lồ hoặc chuyên môn chuyên môn, trao quyền cho cộng đồng để điều chỉnh công nghệ cho phù hợp với nhu cầu riêng của họ.

Tính linh hoạt này bắt nguồn từ kiến ​​trúc tiên tiến của hệ thống. Nó kết hợp bộ mã hóa giọng nói 7B wav2vec 2.0 nâng cấp, học các cách biểu diễn phong phú từ âm thanh thô, với bộ giải mã dựa trên máy biến áp tương tự như bộ giải mã được sử dụng trong LLM.

Thiết kế này cho phép mô hình khái quát hóa sang các ngôn ngữ mới từ một vài ví dụ. Bằng cách phát hành các mô hình của mình theo giấy phép Apache 2.0, Meta đang cho phép các nhà phát triển và doanh nghiệp tự do xây dựng và tích hợp công nghệ này vào các sản phẩm thương mại.

Toàn bộ dự án được xây dựng trên khuôn khổ fairseq2 nguồn mở của FAIR, đảm bảo tích hợp sâu với hệ sinh thái PyTorch.

Bối cảnh cạnh tranh và tương lai Tác động

Bản phát hành của Meta định hình lại một cách chiến lược lĩnh vực nhận dạng giọng nói nguồn mở. Đầu năm nay, mô hình Parakeet của Nvidia đã giành được vị trí hàng đầu trên bảng xếp hạng công khai với tốc độ và độ chính xác ấn tượng theo điểm chuẩn tiếng Anh.

Tuy nhiên, ASR đa ngôn ngữ chuyển trọng tâm từ hiệu suất một ngôn ngữ sang quy mô và khả năng tiếp cận đa ngôn ngữ lớn. Mô hình mở rộng hướng đến cộng đồng của nó thể hiện một mô hình khác với các hệ thống tĩnh hơn, được cập nhật tập trung vốn thống trị không gian.

Tác động tiềm tàng đối với các nhà phát triển và các ngành khác nhau là rất đáng kể. Giấy phép cho phép mở ra cơ hội cho các ứng dụng thương mại mới trong dịch vụ khách hàng toàn cầu, phân tích nội dung truyền thông và các công cụ tiếp cận dành cho nhóm dân số chưa được phục vụ.

Trong các lĩnh vực như giáo dục và ngôn ngữ học, công nghệ này có thể được sử dụng để tạo ra công cụ hỗ trợ học tập và bảo tồn các ngôn ngữ có nguy cơ tuyệt chủng.

Bằng cách cung cấp một nhóm mô hình linh hoạt, từ phiên bản 300M nhẹ đến biến thể 7B mạnh mẽ, Meta đang trang bị cho cộng đồng các công cụ được thiết kế riêng cho các trường hợp sử dụng đa dạng, từ ứng dụng trên thiết bị đến nghiên cứu có độ chính xác cao. Việc phát hành này là một bước quan trọng hướng tới một hệ thống phiên âm thực sự phổ quát.

Categories: IT Info