Cohere for AI, bộ phận nghiên cứu của công ty Cohere của Canada, đã ra mắt Aya 23, một loạt mô hình ngôn ngữ đa ngôn ngữ mới. Những các mẫu mới này, có 8 tỷ và 35 tỷ phiên bản tham số, nhằm mục đích nâng cao khả năng hiểu và tạo ra ngôn ngữ của con người trên phạm vi đa dạng của các ngôn ngữ. Hiện tại, trọng lượng mở của các mô hình có thể truy cập được, cho phép các nhà nghiên cứu điều chỉnh chúng theo nhu cầu cụ thể của họ.
Bộ dữ liệu và khả năng đa ngôn ngữ
Mô hình Aya 23 mở rộng hỗ trợ cho 23 ngôn ngữ, bao gồm tiếng Ả Rập, tiếng Trung, tiếng Pháp, tiếng Đức và tiếng Nhật, cùng nhiều ngôn ngữ khác. Phạm vi ngôn ngữ rộng rãi này đánh dấu sự khác biệt so với các mô hình trước đó chủ yếu tập trung vào tiếng Anh. Các mô hình này được phát triển bằng cách sử dụng Bộ sưu tập Aya, một tập dữ liệu bao gồm 513 triệu trường hợp nhắc nhở và hoàn thành. Điều này rất quan trọng trong việc tinh chỉnh các mô hình để có phản hồi chất lượng cao trên nhiều ngôn ngữ khác nhau.
Việc tạo ra Aya 23 có sự đóng góp của hơn 3.000 nhà nghiên cứu độc lập trên 119 quốc gia, nhấn mạnh tính chất hợp tác của dự án. Sự tham gia rộng rãi này đã giúp đảm bảo rằng các mô hình mạnh mẽ và linh hoạt, có khả năng xử lý nhiều sắc thái và bối cảnh ngôn ngữ.
Thông số kỹ thuật và hiệu suất
Các đánh giá kỹ thuật cho thấy biến thể 35 tỷ tham số của Aya 23, được biết đến với tư cách là Aya-23-35B, xuất sắc trong cả nhiệm vụ phân biệt đối xử và sáng tạo. Nó đã cho thấy sự cải thiện lên tới 14% đối với các nhiệm vụ phân biệt và 20% đối với các nhiệm vụ tổng hợp so với người tiền nhiệm của nó, Aya 101. Ngoài ra, nó còn đạt được mức tăng 41,6% về hiệu suất MMLU đa ngôn ngữ.
Aya-23-35B sử dụng kiến trúc Transformer chỉ dành cho bộ giải mã, giúp nâng cao khả năng của mô hình trong việc tạo ra kết quả đầu ra chính xác bằng cách phân tích ngữ cảnh của các từ trong lời nhắc của người dùng. Mô hình này cũng kết hợp sự chú ý truy vấn được nhóm để tối ưu hóa việc sử dụng RAM và cải thiện tốc độ suy luận. Hơn nữa, các phần nhúng vị trí xoay được sử dụng để xử lý tốt hơn thông tin vị trí của các từ trong câu, từ đó nâng cao chất lượng đầu ra.
Khả năng truy cập và cấp phép
Mở trọng lượng của các mẫu Aya 23 có sẵn trên Hugging Face theo Giấy phép Công cộng Quốc tế Creative Commons Ghi công-Phi thương mại 4.0. Lựa chọn cấp phép này đảm bảo rằng cộng đồng nghiên cứu rộng lớn hơn có thể tham gia và xây dựng dựa trên Cohere cho công việc của AI. Ngoài ra, bạn có thể khám phá các mô hình thông qua Cohere Playground, nơi cung cấp quyền truy cập miễn phí vào các mô hình đa ngôn ngữ tiên tiến này.
Cohere Inc., có trụ sở chính tại Toronto, đã huy động được hơn 400 triệu USD từ các nhà đầu tư như Nvidia Corp. và Oracle Corp. Công ty chuyên về các mô hình ngôn ngữ lớn được thiết kế cho các ứng dụng doanh nghiệp. Ngoài dòng Aya, Cohere còn cung cấp một mạng lưới thần kinh có tên Embed, giúp chuyển đổi dữ liệu thành các cấu trúc toán học dễ hiểu hơn đối với các mô hình ngôn ngữ.
Trước Aya 23, Cohere đã phát hành Aya-101, một mô hình có khả năng hiểu 101 ngôn ngữ. Tuy nhiên, Aya-23-35B mới đã thể hiện hiệu suất vượt trội trong các nhiệm vụ đánh giá nội bộ và xử lý văn bản đa ngôn ngữ so với các mô hình ngôn ngữ lớn (LLM) nguồn mở khác.