Kiến trúc máy biến áp cung cấp năng lượng cho nhiều mô hình ngôn ngữ lớn có khả năng nhất hiện nay phải đối mặt với một thách thức được ghi chép lại: nhu cầu tính toán của nó tăng lên bậc hai khi các trình tự đầu vào trở nên dài hơn. href=”https://research.ibm.com/blog/bamba-ssm-transformer-model”target=”_ blank”> bamba-9b-v2 . Mô hình nguồn mở mới được phát hành này sử dụng thiết kế lai, kết hợp các thành phần biến áp với kiến trúc mô hình không gian trạng thái MAMBA2 (SSM). href=”https://arxiv.org/abs/1706.03762″Target=”_ Blank”> Sự chú ý là tất cả những gì bạn cần”src=”https://winbuzzer.com/wp-content/uploads/2024/12/ai-artificial-intellect-abstract.webp”>
Điều này cho phép mô hình đánh giá sự liên quan của tất cả các mã thông báo theo trình tự đồng thời. Tuy nhiên, so sánh tất cả này dẫn đến nhu cầu tính toán và bộ nhớ, đặc biệt đối với bộ đệm KV lưu trữ trạng thái chú ý, mở rộng theo hình bậc hai với độ dài trình tự tăng. Bổ chai bậc hai này”làm cho việc xử lý bối cảnh rất dài ngày càng chậm và tốn kém, một vấn đề được nêu bật trong các cuộc thảo luận của ngành vào đầu năm nay về tính bền vững của việc mở rộng các mô hình AI. href=”https://en.wikipedia.org/wiki/mamba_(deep_learning_architecture)”Target=”_ Blank”Target=”_ Blank”> được điều chỉnh để học sâu , để giảm thiểu sự thiếu hiệu quả của máy biến áp. Biến thể cụ thể được sử dụng là MAMBA2, được phát triển bởi Albert Gu (CMU). Thời gian tuyến tính trong quá trình đào tạo (thông qua chế độ xem chập) và thời gian liên tục trên mỗi mã thông báo trong quá trình suy luận (thông qua chế độ xem tái phát). Ankit Gupta, một nhà nghiên cứu IBM tham gia vào công việc SSM nền tảng, đã lưu ý vai trò truyền thống của họ: Đây là bánh mì và bơ của kỹ thuật điện-xử lý tín hiệu, robot và lý thuyết kiểm soát.”Mục tiêu là tận dụng các SSM để xử lý các phụ thuộc tầm xa một cách hiệu quả trong khi giữ sự chú ý cho các khả năng hiểu theo ngữ cảnh mạnh mẽ của nó. Phiên bản lượng tử 8 bit (giảm kích thước từ 18GB xuống còn 9GB), rất hứa hẹn. Mô hình, được đào tạo trên 3 nghìn tỷ mã thông báo, được báo cáo khớp với meta, LLAMA 3.1 8B Bamba hiện đang chạy suy luận nhanh hơn 2 đến 2,5 lần so với các máy biến áp có kích thước tương tự, quy cho điều này chủ yếu là giảm nhu cầu bộ đệm KV. IBM từ Raghu Ganti, dẫn đầu dự án Bamba, nhấn mạnh, mọi thứ trở lại với giảm bộ đệm KV, thông lượng nhiều hơn, độ trễ thấp hơn, độ dài bối cảnh dài hơn.”
IBM và các cộng tác viên của nó đang phát hành BAMBA theo mô hình mở, cung cấp quyền truy cập vào trọng số mô hình, chi tiết đào tạo và mã thông qua Dự án kho lưu trữ GitHub của dự án .
Bamba v2 Liên quan đến một số giai đoạn, bắt đầu từ mã thông báo 2T ban đầu Bamba V1 (được phát hành vào khoảng Giáng sinh năm 2024). Đầu tiên, đào tạo được mở rộng đến các mã thông báo 2,5T bằng cách sử dụng Olmo Mix . Sau đó, hai mô hình riêng biệt đã được đào tạo các mã thông báo lên tới 3T bằng cách sử dụng hỗn hợp tùy chỉnh bao gồm dữ liệu Nemotron-CC, mỗi mô hình có lịch trình học tập khác nhau (phân rã không đổi so với cosine). Cuối cùng, cả hai mô hình 3T đều được ủ”trên các mã thông báo chất lượng cao 100b trước khi được hợp nhất bằng cách sử dụng tính trung bình có trọng số của Mergekit.
Tối ưu hóa hiệu suất suy luận vẫn là trọng tâm chính. Nhóm đang tích cực làm việc với Vllm cộng đồng Lưu ý, SSM rất khó hỗ trợ, bởi vì bạn cần quản lý nhà nước bespoke.”Những cải tiến trong tương lai mục tiêu đã được giới hạn trước và các hạt nhân giải mã tùy chỉnh nhanh hơn, có khả năng tăng lợi thế tốc độ của Bamba lên 4-5 lần so với các máy biến áp truyền thống. Nhóm này mời cộng đồng nguồn mở đóng góp, đặc biệt là trong việc thử nghiệm tỷ lệ bối cảnh dài và cải thiện hiệu suất toán học. IBM đã xác nhận rằng các tính năng chính từ dự án BAMBA sẽ được đưa vào IBM Granite 4.0 Mô hình doanh nghiệp, được thiết lập để phát hành trong các tháng tới. Tích hợp theo kế hoạch này làm nổi bật sự quan tâm của ngành công nghiệp ngày càng tăng đối với các kiến trúc AI lai như một con đường thực tế hướng tới các mô hình ngôn ngữ hiệu quả và có thể mở rộng hơn có khả năng xử lý các nhu cầu bối cảnh ngày càng dài của các ứng dụng AI hiện đại.