Google đã thực hiện một bước để thực hiện các mô hình AI có khả năng hơn trên phần cứng hàng ngày bằng cách phát hành các phiên bản được tối ưu hóa đặc biệt của họ Gemma 3. nhu cầu. Kết quả chính là các mô hình tinh vi, bao gồm biến thể Gemma 3 27B lớn, giờ đây có thể hoạt động trên các card đồ họa cấp độ tiêu dùng phổ biến, chuyển chúng ra khỏi miền độc quyền của các bộ tăng tốc trung tâm dữ liệu cao cấp. Kế hoạch đó hiện được thực hiện với các bản phát hành QAT này. src=”Dữ liệu: Image/SVG+XML; Aiihdpzhropsixmdi0iiBozwlnahq9ijy1mcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Bản phát hành theo lần đầu tiên ra mắt ban đầu của loạt Gemma 3 vào ngày 12 tháng 3,. Sự ra mắt đã giới thiệu các mô hình kéo dài từ 1 tỷ đến 27 tỷ thông số, được ca ngợi về hiệu suất mạnh mẽ, mô hình 27B đạt điểm cao trong các so sánh như LMSYS Chatbot Arena, một mô hình xếp hạng hệ thống thông qua các mô hình ưu tiên của con người nhưng các mô hình không cần thiết Smarts
Kỹ thuật chính là đào tạo nhận biết lượng tử hóa (QAT). Không giống như chỉ đơn giản là nén một mô hình sau khi đào tạo hoàn tất (lượng tử hóa sau đào tạo hoặc PTQ), QAT tích hợp các ràng buộc của độ chính xác số thấp hơn vào vòng lặp đào tạo, mô phỏng các hoạt động này trong quá trình. làm giảm đáng kể sự giảm chất lượng thông thường liên quan đến lượng tử hóa, với mức độ giảm 54% trong sự suy giảm sự bối rối (một thước đo về mức độ một mô hình dự đoán văn bản) đối với đánh giá Perplexity của Llama.
Chi tiết mô hình
Hiệu quả thúc đẩy trong ngành
Bản phát hành Gemma 3 QAT xuất hiện trong bối cảnh ngành công nghiệp rộng lớn hơn tập trung vào việc làm cho các mô hình AI hiệu quả và dễ tiếp cận hơn. Chỉ một ngày trước thông báo của Google, Microsoft Research đã tiết lộ Bitnet B1.58 2B4T. Trong khi Microsoft tuyên bố kết quả ấn tượng, việc đạt được chúng đòi hỏi phải sử dụng một chuyên ngành C ++ Framework (bitnet.cpp) Điều này trái ngược với cách tiếp cận của Google, việc sử dụng định dạng INT4 tiêu chuẩn hơn và tận dụng các công cụ được áp dụng rộng rãi, hiện có cho suy luận GPU, có khả năng cung cấp một đường dẫn chấp nhận dễ dàng hơn cho các nhà phát triển tập trung vào việc chạy các mô hình trên thẻ đồ họa tiêu dùng.