SambaNova Systems, công ty chủ chốt trong lĩnh vực AI sáng tạo tập trung vào doanh nghiệp, đã đặt ra tiêu chuẩn hiệu suất mới bằng cách đạt thông lượng 1.000 mã thông báo mỗi giây sử dụng mô hình hướng dẫn tham số Llama 3 8B. Thành tích này được xác nhận bởi công ty thử nghiệm độc lập Artificial Analysis, vượt qua kỷ lục trước đó là 800 token mỗi giây do Groq nắm giữ. Cột mốc này thể hiện sự tiến bộ đáng kể về khả năng của các hệ thống AI sáng tạo.

Ứng dụng và ý nghĩa của doanh nghiệp

Sự gia tăng tốc độ xử lý có ý nghĩa sâu rộng đối với các ứng dụng doanh nghiệp khác nhau. Thời gian phản hồi nhanh hơn, cải thiện việc sử dụng phần cứng và giảm chi phí vận hành là một trong những lợi ích. Khả năng tăng tốc này đặc biệt thuận lợi cho các ứng dụng yêu cầu độ trễ thấp và thông lượng cao, chẳng hạn như tác nhân AI, ứng dụng AI dành cho người tiêu dùng và giải thích tài liệu khối lượng lớn. George Cameron, Người đồng sáng lập Phân tích nhân tạo, đã nói VentureBeat về tốc độ ngày càng tăng của cuộc đua chip AI và nêu bật các tùy chọn phần cứng ngày càng mở rộng dành cho các nhà phát triển AI. Công ty của ông nhấn mạnh đến hiệu suất trong thế giới thực của các hệ thống này, mang lại sự phấn khích mới cho các trường hợp sử dụng phụ thuộc vào tốc độ.

🚀 SambaNova đã đánh bại NVIDIA trong bài kiểm tra tốc độ mới của Phân tích nhân tạo. 🚀

Samba-1 Turbo hoạt động xuất sắc nhanh với tốc độ 1000 t/s, kỷ lục thế giới: https://t.co/PmDHWrFGCH.#AI # GenAI #EnterpriseAI #LLM #NLP #AIAreAll #GPUAlternative #EnterpriseScaleAI #AIChips #ChipRace pic.twitter.com/TMtUqyZWpy

— Hệ thống SambaNova (@ SambaNovaAI) Ngày 29 tháng 5 năm 2024

Những tiến bộ công nghệ đằng sau thành tích này

Trọng tâm dẫn đến thành công của SambaNova là công nghệ Đơn vị luồng dữ liệu có thể cấu hình lại (RDU), giúp SambaNova trở nên khác biệt so với các bộ tăng tốc AI truyền thống như GPU của Nvidia. RDU là các chip AI chuyên dụng được thiết kế để hỗ trợ cả giai đoạn đào tạo và suy luận trong quá trình phát triển mô hình AI. Họ vượt trội trong việc xử lý các nhu cầu khối lượng công việc của doanh nghiệp, bao gồm cả việc tinh chỉnh mô hình. Ngăn xếp phần mềm của SambaNova đóng một vai trò quan trọng trong việc tối ưu hóa RDU để tăng hiệu suất, cho phép tối ưu hóa lặp lại việc phân bổ tài nguyên trên các lớp mạng thần kinh khác nhau, dẫn đến những cải tiến đáng kể cả về hiệu quả và tốc độ.

Sự ra đời của Samba-1-Turbo, được trang bị chip SN40L, là công cụ giúp đạt được kỷ lục thế giới này. Samba-1-Turbo xử lý 1.000 mã thông báo mỗi giây với độ chính xác 16 bit, chạy mô hình Llama-3 Instruct (8B) tiên tiến. Không giống như các GPU truyền thống thường bị hạn chế về dung lượng bộ nhớ trên chip và truyền dữ liệu thường xuyên, RDU của SambaNova tự hào có một lượng lớn bộ nhớ phân tán trên chip thông qua Đơn vị bộ nhớ mẫu (PMU) của nó. Các PMU này được đặt gần các đơn vị điện toán, giảm thiểu việc di chuyển dữ liệu và nâng cao hiệu quả.

Tối ưu hóa việc thực thi mạng thần kinh

GPU truyền thống thực thi các mô hình mạng thần kinh trong một kiểu từng hạt nhân, làm tăng độ trễ và sử dụng không đúng mức các đơn vị tính toán. Ngược lại, trình biên dịch SambaFlow ánh xạ toàn bộ mô hình mạng thần kinh dưới dạng biểu đồ luồng dữ liệu trên kết cấu RDU, cho phép thực thi luồng dữ liệu theo đường ống và tăng hiệu suất. Việc xử lý các mô hình lớn trên GPU thường đòi hỏi tính song song của mô hình phức tạp, đòi hỏi các framework và mã chuyên dụng. Kiến trúc RDU của SambaNova tự động hóa tính song song của dữ liệu và mô hình khi ánh xạ nhiều RDU trong một hệ thống, đơn giản hóa quy trình và đảm bảo hiệu suất tối ưu.

Meta-Llama-3-8B-Instruct mang lại tốc độ và hiệu quả chưa từng có của Samba-1-Turbo. Ngoài ra, bộ SambaLingo của SambaNova hỗ trợ nhiều ngôn ngữ, bao gồm tiếng Ả Rập, tiếng Bungari, tiếng Hungary, tiếng Nga, tiếng Serbia (Cyrillic), tiếng Slovenia, tiếng Thái, tiếng Thổ Nhĩ Kỳ và tiếng Nhật, thể hiện tính linh hoạt của hệ thống và khả năng ứng dụng toàn cầu. Sự tích hợp chặt chẽ giữa phần cứng và phần mềm trong Samba-1-Turbo là chìa khóa thành công của nó, giúp tạo ra AI dễ tiếp cận và hiệu quả hơn cho các doanh nghiệp.

Categories: IT Info