Google đã thực hiện một bước để thực hiện các mô hình AI có khả năng hơn trên phần cứng hàng ngày bằng cách phát hành các phiên bản được tối ưu hóa đặc biệt của họ Gemma 3. nhu cầu. Kết quả chính là các mô hình tinh vi, bao gồm biến thể Gemma 3 27B lớn, giờ đây có thể hoạt động trên các card đồ họa cấp độ tiêu dùng phổ biến, chuyển chúng ra khỏi miền độc quyền của các bộ tăng tốc trung tâm dữ liệu cao cấp. Kế hoạch đó hiện được thực hiện với các bản phát hành QAT này. src=”Dữ liệu: Image/SVG+XML; Aiihdpzhropsixmdi0iiBozwlnahq9ijy1mcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Bản phát hành theo lần đầu tiên ra mắt ban đầu của loạt Gemma 3 vào ngày 12 tháng 3,. Sự ra mắt đã giới thiệu các mô hình kéo dài từ 1 tỷ đến 27 tỷ thông số, được ca ngợi về hiệu suất mạnh mẽ, mô hình 27B đạt điểm cao trong các so sánh như LMSYS Chatbot Arena, một mô hình xếp hạng hệ thống thông qua các mô hình ưu tiên của con người nhưng các mô hình không cần thiết Smarts

Kỹ thuật chính là đào tạo nhận biết lượng tử hóa (QAT). Không giống như chỉ đơn giản là nén một mô hình sau khi đào tạo hoàn tất (lượng tử hóa sau đào tạo hoặc PTQ), QAT tích hợp các ràng buộc của độ chính xác số thấp hơn vào vòng lặp đào tạo, mô phỏng các hoạt động này trong quá trình. làm giảm đáng kể sự giảm chất lượng thông thường liên quan đến lượng tử hóa, với mức độ giảm 54% trong sự suy giảm sự bối rối (một thước đo về mức độ một mô hình dự đoán văn bản) đối với đánh giá Perplexity của Llama.

Chi tiết mô hình , các mô hình Gemma 3 QAT giữ lại các tính năng từ các tiền thân BF16 của họ, bao gồm khả năng xử lý các đầu vào hình ảnh bên cạnh văn bản và duy trì cửa sổ bối cảnh rộng 128.000. Trong các tương tác dài, theo mô hình href=”https://vertexaisearch.cloud.google.com/grounding-api-redirect/awqvqakwcs6v_vhxob6vjx8inqkrmo MFHMAP8UBWPARJMEVIZ9TDXDL4QKIJ138NDR5US03MXO57EF1T1KFPMFH9_3Q6HEO9O0BBEUGPWISJCSTUII7PN44P7TIZQ==”Target=”_ Blank”> Báo cáo kỹ thuật . Hỗ trợ ngôn ngữ rộng, bao gồm hơn 140 ngôn ngữ theo các báo cáo trước đó, cũng được dự kiến ​​sẽ tiếp tục. Simon Willison đã chia sẻ những trải nghiệm sớm tích cực, chạy mô hình QAT 27B thông qua Ollama href=”https://huggingface.co/collections/mlx-community/gemma-3-qat-68002674cd5afc6f9022a0ae”Target=”_ Blank”> Bumps, tuy nhiên. Như phổ biến với các bản phát hành mới, một số người dùng ban đầu Hugging Face Kaggle Điều quan trọng, chúng được thiết kế để tích hợp với các công cụ phát triển phổ biến. Hỗ trợ bản địa tồn tại ở Ollama, LM Studio , MLX (cho Apple Silicon) href=”https://www.kaggle.com/models/google/gemma-3/gemmacpp”Target=”_ Blank”> Gemma.cpp (đối với CPU CPU href=”https://ai.google.dev/gemma/gemmauss href=”https://huggingface.co/collections/ungloth/gemma-3-67d12b7e8816ec6efa7e4e5b”Target=”_ Blank”> Unsloth và GGML

Hiệu quả thúc đẩy trong ngành

Bản phát hành Gemma 3 QAT xuất hiện trong bối cảnh ngành công nghiệp rộng lớn hơn tập trung vào việc làm cho các mô hình AI hiệu quả và dễ tiếp cận hơn. Chỉ một ngày trước thông báo của Google, Microsoft Research đã tiết lộ Bitnet B1.58 2B4T. Trong khi Microsoft tuyên bố kết quả ấn tượng, việc đạt được chúng đòi hỏi phải sử dụng một chuyên ngành C ++ Framework (bitnet.cpp) Điều này trái ngược với cách tiếp cận của Google, việc sử dụng định dạng INT4 tiêu chuẩn hơn và tận dụng các công cụ được áp dụng rộng rãi, hiện có cho suy luận GPU, có khả năng cung cấp một đường dẫn chấp nhận dễ dàng hơn cho các nhà phát triển tập trung vào việc chạy các mô hình trên thẻ đồ họa tiêu dùng.