Người khổng lồ công nghệ Trung Quốc Alibaba đã tiết lộ một hệ thống mới mạnh mẽ giúp cắt giảm tới 82% chi phí vận hành trí tuệ nhân tạo.
Công nghệ có tên Aegaeon này giải quyết một thách thức quan trọng đối với các nhà cung cấp đám mây: cách phục vụ hiệu quả hàng nghìn mô hình AI chuyên dụng mà khách hàng không thường xuyên sử dụng.
Trong nghiên cứu được trình bày tại Hội nghị chuyên đề về Nguyên tắc hệ điều hành (SOSP) ở Seoul—một trong những địa điểm uy tín nhất về khoa học máy tính—Alibaba trình bày chi tiết cách lập kế hoạch thông minh của Aegaeon sử dụng phần cứng GPU đắt tiền hiệu quả hơn nhiều so với các phương pháp hiện tại.
Trong thời gian dùng thử kéo dài ba tháng, hệ thống đã cho phép Alibaba Cloud phục vụ một bộ sưu tập lớn các mô hình chỉ sử dụng 213 GPU thay vì 1.192, cắt giảm đáng kể chi phí hoạt động cho thị trường AI.
Đổi mới này trực tiếp nhắm vào lượng rác thải khổng lồ vốn có trong cơ sở hạ tầng AI ngày nay. Dữ liệu riêng của Alibaba cho thấy sự mất cân bằng rõ rệt: 17,7% đội GPU của họ bị ràng buộc phải phục vụ một loạt các mô hình thích hợp, chỉ chiếm 1,35% tổng số yêu cầu của khách hàng.
Đối với các nền tảng đám mây lưu trữ một thị trường đang phát triển với nhiều mô hình đa dạng, sự kém hiệu quả này thể hiện một chi phí hoạt động lớn và không bền vững.
Sự phát triển của Aegaeon, đồng tác giả là CTO Chu Jingren của Alibaba Cloud, báo hiệu một nỗ lực chiến lược cấp cao để giải quyết vấn đề này.
Từ GPU nhàn rỗi đến Lập lịch thông minh: Đột phá của Aegaeon
Về cốt lõi, Aegaeon thay thế quy mô cấp độ yêu cầu thô sơ được nhiều hệ thống sử dụng bằng “cấp mã thông báo” chi tiết hơn nhiều phương pháp tự động mở rộng quy mô”.
Các hệ thống truyền thống phải đợi một mô hình hoàn tất việc tạo phản hồi cho một người dùng. Quá trình này khóa GPU, tạo ra tình trạng”chặn đầu dòng”nghiêm trọng, trong đó các yêu cầu khẩn cấp dành cho các mẫu máy khác bị kẹt trong hàng đợi sau một tác vụ kéo dài.
Kiến trúc của Aegaeon thông minh hơn. Nó có thể tạm dừng quá trình của một mô hình ở giữa thế hệ, trên cơ sở từng mã thông báo, để nhanh chóng xử lý yêu cầu mới đến cho một mô hình khác trên cùng một phần cứng.
Việc lập kế hoạch ưu tiên này cho phép một GPU duy nhất phân phối một cách linh hoạt nhiều mô hình khác nhau—tối đa bảy mô hình cho mỗi GPU trong quá trình thử nghiệm—mà không có độ trễ kéo dài vi phạm các mục tiêu cấp dịch vụ.
Theo tài liệu nghiên cứu, biện pháp kiểm soát chi tiết này cực kỳ hiệu quả. Aegaeon sử dụng một loạt tối ưu hóa toàn bộ ngăn xếp, bao gồm tái sử dụng thành phần để tăng tốc độ khởi động lại công cụ và quản lý bộ nhớ rõ ràng để ngăn chặn sự phân mảnh, cùng nhau giảm chi phí thông thường liên quan đến tự động mở rộng quy mô xuống 97%.
Do đó, Alibaba tuyên bố Aegaeon có thể duy trì tỷ lệ yêu cầu cao hơn từ 2 đến 2,5 lần so với các giải pháp thay thế, thay đổi căn bản tính kinh tế của việc phục vụ một mô hình đa dạng catalog.
Vượt xa sức mạnh tàn bạo: Cách mở rộng quy mô cấp mã thông báo giải quyết vấn đề đuôi dài của AI
Đột phá này về hiệu quả hoạt động khác biệt với những cải tiến giúp giảm chi phí đào tạo AI. Mặc dù mang lại khoản tiết kiệm khổng lồ, nhưng lần ra mắt đầu tiên của Aegaeon không lặp lại khoảnh khắc DeepSeek vào tháng 1 năm 2025.
Sự kiện đó chứng kiến một bài báo từ công ty DeepSeek của Trung Quốc đề xuất các phương pháp đào tạo hoàn toàn rẻ hơn, gây ra một đợt bán tháo cổ phiếu công nghệ lớn khiến các nhà sản xuất GPU như Nvidia đặc biệt khó khăn.
Thay vào đó, Aegaeon giải quyết thách thức suy luận quan trọng không kém, nếu ít gây chú ý hơn. chi phí—giá của việc *chạy* các mô hình AI thực sự trong sản xuất.
Giải quyết vấn đề này là một điều cần thiết mang tính chiến lược đối với Alibaba. Công ty đang theo đuổi một chiến lược AI tích cực, phát hành liên tục cả mô hình nguồn mở và mô hình độc quyền cho các nhiệm vụ từ mã hóa đến suy luận đa phương thức.
Chính chiến lược này tạo ra “cái đuôi dài” của các mô hình chuyên biệt khiến Aegaeon trở nên có giá trị. Bằng cách xây dựng một nền tảng hiệu quả để vận hành chúng, Alibaba có thể giúp thị trường AI rộng lớn của mình trở nên khả thi về mặt kinh tế.
Mặt trận mới trong cuộc chạy đua vũ trang AI: Sự thúc đẩy hiệu quả trong toàn ngành
Trọng tâm của Alibaba vào việc lập kế hoạch là một trong nhiều mặt trận trong cuộc chiến toàn ngành về chi phí đáng kinh ngạc của AI.
Với cái giá phải trả cho cả đào tạo và suy luận vẫn là rào cản chính cho việc áp dụng rộng rãi, những người chơi chính đang giải quyết vấn đề hiệu quả từ nhiều góc độ khác nhau, tạo ra bối cảnh đổi mới đa dạng trong đó mọi phần của hệ thống AI đều được tối ưu hóa.
Một cách tiếp cận phổ biến là tự thiết kế lại kiến trúc mô hình. Ví dụ, các mẫu Granite 4.0 gần đây của IBM sử dụng thiết kế kết hợp pha trộn các khối Transformer với các lớp Mamba hiệu quả cao. Phương pháp này đạt được hiệu quả bằng cách xây dựng một công cụ cơ bản gọn gàng hơn ngay từ đầu, nhắm mục tiêu tải tính toán cốt lõi.
Đối với Raghu Ganti, trưởng dự án của IBM, “mọi thứ đều quay trở lại với việc giảm bộ nhớ đệm KV… Thông lượng cao hơn, độ trễ thấp hơn, thời lượng ngữ cảnh dài hơn.”
Một chiến lược khác nhắm mục tiêu tối ưu hóa bộ nhớ trong kiến trúc Transformer thống trị. Mô hình bộ nhớ chú ý thần kinh (NAMM) của Sakana AI có trụ sở tại Tokyo sử dụng các thuật toán tiến hóa để quản lý một cách thông minh bộ đệm KV của mô hình, một điểm tắc nghẽn bộ nhớ lớn.
Kỹ thuật này giảm đáng kể mức chiếm dụng bộ nhớ đối với các tác vụ liên quan đến ngữ cảnh dài.
Các phương pháp tiếp cận triệt để hơn cũng đang xuất hiện thách thức hoàn toàn mô hình mở rộng. Mùa hè này, các nhà nghiên cứu đã công bố một mô hình thị giác giống não mô phỏng cấu trúc thần kinh của con người để đạt hiệu quả sử dụng năng lượng vượt trội.
Một trong những đồng tác giả của nó, Zejin Lu, đã giải thích khái niệm này:”Đối với con người, khi bạn phát hiện một số vật thể, chúng có một vị trí điển hình. Bạn đã biết đôi giày thường ở phía dưới, trên mặt đất. Máy bay, nó ở trên cùng.”
Mô hình thu được tiêu thụ điện năng Tiêu thụ ít năng lượng hơn mười lần so với AI tiêu chuẩn, chứng tỏ thiết kế trang nhã đôi khi có thể đánh bại được sức mạnh tàn bạo.
Lập kế hoạch linh hoạt của Aegaeon là một cách tiếp cận bổ sung, mạnh mẽ cho các phương pháp khác này. Nó chứng minh rằng kỹ thuật hệ thống phức tạp có thể mang lại những khoản tiết kiệm đáng kể như những khoản tiết kiệm từ việc đại tu kiến trúc, đảm bảo cuộc cách mạng AI có thể trở thành hiện thực kinh doanh bền vững.