Google har tatt et skritt mot å gjøre sine mer dyktige AI-modeller løpbare på hverdagsmaskinvare ved å gi ut spesialoptimaliserte versjoner av Gemma 3-familien.
Modellene bruker kvantiseringsbevisst trening (QAT) og bruker 4-bit til å være helt 16)-en numerisk format som bruker bare 4 biter per parameter sammenlignet med vanlig 16-bit-bit-bits per parameter sammenlignet med vanlig 16-bits-bits-biter per parameter sammenlignet med vanlig. krympe hukommelseskravene. Det primære utfallet er at sofistikerte modeller, inkludert den store Gemma 3 27B-varianten, nå kan operere på populære grafikkort på forbrukernivå, og flytte dem ut av det eksklusive domenet til high-end datasenterakseleratorer.
Google hadde signalisert intensjonen om å tilby komprimerte versjoner, lovet”redusere modellstørrelse og beregningskrav mens de opprettholdt sin høye nøyaktighet. Den planen realiseres nå med disse QAT-utgivelsene.
Utgivelsen følger den første debuten til Gemma 3-serien 12. mars. Denne lanseringen introduserte modeller som spenner over 1 milliard til 27 milliarder parametere, berømmet for sterk ytelse-27B-modellen scoret godt i sammenligninger som LMSYS Chatbot Arena, en systemrangeringsmodeller via menneskelig preferanse-men deres Rinking Models BF-PRESERV-formatet betydde betydelig maskinvarekrav, ofte trenger systemer som NVIDIAs H100.
Nøkkelteknikken er kvantiseringsbevisst trening (QAT). I motsetning til å bare komprimere en modell etter trening er fullført (kvantisering etter trening, eller PTQ), integrerer QAT begrensningene for lavere numerisk presisjon direkte i selve treningssløyfen, og simulerer disse operasjonene under prosessen.
google uttalte at det er brukt til å bruke det å bruke det å bruke det som er i bruk. POST, reduserte det vanlige fallet i kvaliteten assosiert med kvantisering betydelig, og siterte en reduksjon på 54% i forvirringsnedgangen (et mål på hvor godt en modell forutsier tekst) for”Q4_0 [Format] ved bruk av Llama.cpp perplexity evaluering”sammenlignet med standardmetoder.
Qat er ikke roman; Det er en etablert teknikk som er støttet av Major-rammen. parametere. Gemma 3 27B-modellen så vekttavtrykket reduseres fra 54 GB (BF16) til 14,1 GB (INT4).
Denne reduksjonen betyr at 14,1 GB INT4-versjonen nå passer godt i 24 GB VRAM på kort som NVIDIA RTX 3090. ONDE MODELS SAG LIKE DROPS: 12B fra 12B fra 12B fra TOB TOB TOB TOB TOB. GPUer som NVIDIA RTX 4060 bærbar PC), 4B fra 8 GB til 2,6 GB, og den bittesmå 1B fra 2 GB til 0,5 GB. Mens disse besparelsene er betydelige,
kilde: Google
Google la forsvarlig til kunngjøringen:”Dette tallet representerer bare VRAM som kreves for å laste modellvektene. Å kjøre modell vekter. Denne QAT-baserte minnebesparelsen kompletterer eksisterende arkitektoniske effektiviteter i Gemma 3 designet for å dempe KV-cache-vekst.
Funksjoner utover tekstgenerering
Viktigere er at disse effektivitetsgevinstene ikke ser ut til å ofre kjernefunksjonalitet. Basert på Modelldetaljer , beholder Gemma 3 QAT-modellene funksjoner fra sine BF16-forgjengere, inkludert muligheten til å behandle bildeinnganger ved siden av tekst og opprettholde det omfattende 128 000-Token Context Windows. ////// Teknisk rapport . Bredt språkstøtte, som dekker over 140 språk i henhold til tidligere rapporter, forventes også å overføre.
Kjører på din egen maskin: opplevelser og hinder
VRAM-reduksjonene åpner døren for å kjøre disse modellene på vidt eid maskinvare. Simon Willison delte positive tidlige erfaringer, og kjørte 27B QAT-modellen via ollama (bruker rundt 22 GB RAM-system-bredt) og Som det er vanlig med nye utgivelser, er noen brukere innledningsvis rapportert bug Studios MLX-implementering, selv om verktøyutviklere så ut til å løse disse problemene raskt med oppdateringer.
Videre observerte samfunnsmedlemmer på plattformer som Reddit at de offisielle GGUF-filene (et felles format for kvantiserte modeller brukt av verktøy som lama.cpp) for QAT-modellene var større enn teoretisk nødvendig for Int4 Wects. Dette ble sporet til Token EmbedDings-tabellen-som numerisk representerer ord for modellen-innenfor de offisielle GGUF-filene som forblir uklantet (ved halvpresisjon).
Syndige brukere demonstrerte at ved å kvantisere denne spesifikke filen, kan du reduseres ytterligere 8B) ved å kvantisere denne spesifikke tabellen. om enn med uoffisielle modifikasjoner.
økosystemstøtte og tilgjengelighet
Google har gjort de offisielle INT4 og Q4_0 QAT-modeller tilgjengelig via Hugging Face and Kaggle , trent med sin interne TPU-infrastruktur (TPUV4P, V5P, V5E). Avgjørende er de designet for integrering med populære utviklerverktøy. Innfødt støtte eksisterer i Ollama, lm studio , mlx (for eple silicon), Googles egen gemma.cpp (for C ++ CPU-inferens), og google google (via gook google google google goog goog goog goular goog goop href=”https://ai.google.dev/gemma/gemmavers”target=”_ blank”> gemmaverse ,”der samfunnsbidragsytere som Bartowski , GGML offer alternative quantized versions, often using PTQ methods, providing developers with more choices in the size/speed/quality trade-off spectrum.
Effektivitet Push over bransjen
Gemma 3 QAT-utgivelsen kommer midt i et bredere bransjefokus på å gjøre AI-modeller mer effektive og tilgjengelige. Bare dagen før Googles kunngjøring avduket Microsoft Research Bitnet B1.58 2B4T.
Bitnet representerer en annen strategi, og bruker innfødt trening med en ekstremt lav 1,58-bits presisjon og primært målrettet CPU-effektiviteten. Mens Microsoft hevder imponerende resultater, nødvendiggjør å oppnå dem å bruke en spesialisert c ++ rammeverk (bitnet.cpp) , da standard libraries ikke er optimalisert for sin unike matematikk. Dette står i kontrast til Googles tilnærming til å bruke det mer standard INT4-formatet og utnytte eksisterende, mye vedtatte verktøy for GPU-inferens, og potensielt tilby en enklere adopsjonsvei for utviklere fokusert på å kjøre modeller på forbrukergrafikkort.