Google has taken a step towards making its more capable AI models runnable on everyday hardware by releasing specially optimized versions of its Gemma 3 family.
The models employ Quantization-Aware Training (QAT) and use 4-bit integer precision (int4) – a numerical format using only 4 bits per parameter compared to common 16-bit types like BFloat16 (BF16) – to dramatically shrink their memory krav. Det primära resultatet är att sofistikerade modeller, inklusive den stora GEMMA 3 27B-varianten, nu kan fungera på populära grafikkort på konsumentnivå och flytta dem ur den exklusiva domänen för avancerade datacenter-acceleratorer. Den planen realiseras nu med dessa QAT-utgåvor.
>
Utgivningen följer den första debuten av Gemma 3-serien den 12 mars. Den lanseringen introducerade modeller som sträcker sig över 1 miljard till 27 miljarder parametrar, berömd för stark prestanda-den 27B-modellen gjorde bra i jämförelser som LMSYS CHATBOT ARENA, en systemranking av modeller via mänsklig preferens-men deras beroende av BF16-formatet betydde betydande hårdvarukrav, ofta behöver system som nVidia’s h100.
källa: Google Nyckeltekniken är kvantiseringsmedveten utbildning (QAT). Unlike simply compressing a model after training is complete (Post-Training Quantization, or PTQ), QAT integrates the constraints of lower numerical precision directly into the training loop itself, simulating these operations during the process. Google stated it applied QAT for about 5,000 training steps, essentially teaching the model to perform well using fewer bits per number from the start. This approach, according to the company’s blog post, significantly minskade den vanliga kvalitetsfallet i samband med kvantisering, med hänvisning till en minskning av 54% i förvirringen av förvirringen (ett mått på hur väl en modell förutspår text) för”Q4_0 [format] med hjälp av Llama.cpp perplexitetsutvärdering”jämfört med standardmetoder. Qat själv är inte nytt; Det är en etablerad teknik som stöds av stora ramverk , men dess tillämpning här ger praktiska fördelar. den praktiska fördelen är en steyphjälp (Video) som är nödvändig. The Gemma 3 27B model saw its weight footprint decrease from 54 GB (BF16) to 14.1 GB (int4). This reduction means the 14.1 GB int4 version now fits well within the 24GB VRAM found on cards like the NVIDIA RTX 3090. Other models saw similar drops: 12B from 24 GB to 6.6 GB (suitable for the 8GB VRAM in GPU: er som NVIDIA RTX 4060 bärbar dator), 4B från 8 GB till 2,6 GB och den lilla 1B från 2 GB till 0,5 GB. Medan dessa besparingar är betydande, källa: källa: källa: källa: källa: Google Google har försiktigt lagt till i sitt tillkännagivande:”Denna siffra representerar bara VRAM som krävs för att ladda modellvikterna. Att driva modellen kräver också ytterligare VRAM för KV-cachen, som lagrar information om den pågående konversationen och beror på den sammanhangslängd”. KV-cachen har mellanliggande beräkningar relaterade till de inmatningssekvenser, växande större som konversationer eller processer för att få ett annat sätt att vara övergripande minne. Detta QAT-baserade minnesbesparing kompletterar befintliga arkitektoniska effektiviteter i GEMMA 3 utformad för att mildra KV-cache-tillväxt. Viktigare verkar dessa effektivitetsvinster inte offra kärnfunktionaliteten. Baserat på model details, the Gemma 3 QAT models retain features from their BF16 predecessors, including the ability to process image inputs alongside text and maintain the extensive 128,000-token context window. This long context capability is aided by architectural choices in the base Gemma 3 design, such as alternating local sliding window attention with global attention mechanisms, which helps manage the memory demands of the KV cache under långa interaktioner, enligt modellens Teknisk rapport . Bred språkstöd, som täcker över 140 språk enligt tidigare rapporter, förväntas också överföra. VRAM-reduktioner öppnar dörren för att köra dessa modeller på allmänt ägda hårdvara. Simon Willison delade positiva tidiga erfarenheter och körde 27b Qat-modellen via ollama (med cirka 22 GB RAM-systemet) och mlx på hans personliga maskin, att hitta MLX-versionen kändes snabbare om 15 emellertid. As is common with new releases, some users initially reported bugs, such as models outputting repetitive tokens when run via LM Studio’s MLX-implementering, även om verktygsutvecklare tycktes ta itu med dessa problem snabbt med uppdateringar. dessutom var samhällsmedlemmar på plattformar som Reddit att de officiella GGUF-filerna (ett gemensamt format för kvantiserade modeller som används av verktyg som Llama.cpp) för QAT-modellerna var större än teoretiskt nödvändigt för int4 weights. This was traced to the token embeddings table – which numerically represents words for the model – within the official GGUF files remaining unquantized (at half precision). Savvy users demonstrated that by manually quantizing this specific table, the file sizes could be reduced further (fitting 12B in under 8GB, 27B under 16GB), potentially enabling use on GPUs with tighter VRAM constraints, albeit with unofficial modifications. Google has made the official int4 and Q4_0 QAT models available via kramar ansikte och kaggle , tränad med sin interna tpu infrastructure (tpUv4p, v5p, v5p, v5p). Av avgörande betydelse är de utformade för integration med populära utvecklarverktyg. Native Support finns i Ollama, lm studio , mlx (för äpple kisel), Googles egna Gemma.cpp (för C ++ CPU-inferens) och lama.cpp (via GGUF-formen). href=”https://ai.google.dev/gemma/gemmaverse”Target=”_ blank”> Gemmavers ,”Där samhällets bidragsgivare som oslad och ggml Erbjud alternativ kvantiserad versioner, ofta med PTQ-metoder, tillhandahåller utvecklare med mer val i storleken/Hastigheten/Hastigheten/Hastigheten/kvaliteten. > Effektivitetspush över branschen
Gemma 3 Qat-utgåvan kommer mitt i ett bredare branschfokus för att göra AI-modeller mer effektiva och tillgängliga. Precis dagen före Googles tillkännagivande avslöjade Microsoft Research BitNet B1.58 2B4T. BitNet representerar en annan strategi, som använder inbyggd utbildning till en extremt låg 1,58-bitars precision och främst riktar CPU-effektivitet. Medan Microsoft hävdar imponerande resultat, kräver det att uppnå en specialiserad c ++ ramverk (bitnet.cpp) , eftersom standardbibliotek inte är optimiserade för sin unika matematik. Detta står i kontrast till Googles tillvägagångssätt att använda det mer standard Int4-formatet och utnyttja befintliga, allmänt antagna verktyg för GPU-inferens, vilket potentiellt kan erbjuda en enklare adoptionsväg för utvecklare med fokus på att köra modeller på konsumentgrafikkort. kapacitet utöver textgenerering
Kör på din egen maskin: Erfarenheter och hinder
Ecosystem Support and Availability