Google a făcut un pas către realizarea modelelor AI mai capabile ale sale pe hardware-ul de zi cu zi, prin eliberarea versiunilor special optimizate ale familiei sale Gemma 3.

Modelele folosesc instruire conștientă de cuantificare (QAT) și folosesc precizie întretă de 4 biți (Int4)-un format numeric folosind doar 4 biți pe parametrul comparativ cu tipurile de 16 biți obișnuite precum BFLOat16 (BF16)-pentru a micșora 3 cereri. Rezultatul principal este că modelele sofisticate, inclusiv varianta mare Gemma 3 27b, pot acum să funcționeze pe carduri grafice populare la nivel de consum, mutându-le din domeniul exclusiv al acceleratoarelor de înaltă calitate. Acest plan este acum realizat cu aceste versiuni QAT.

Versiunea urmează debutul inițial al seriei Gemma 3 pe 12 martie. Această lansare a introdus modele cuprinse între 1 miliarde până la 27 de miliarde de parametri, lăudați pentru performanțe puternice-modelul 27B a obținut bine în comparații precum LMSYS Chatbot Arena, un modele de clasare a sistemului prin intermediul preferințelor umane-dar dependența lor de formatul BF16 a însemnat cerințe de hardware semnificative, adesea care au nevoie de sisteme precum Nvidia, în timp ce prezer în timp ce prezer. Smarts

Tehnica cheie este formarea conștientă de cuantificare (QAT). Spre deosebire de simpla comprimare a unui model după ce antrenamentul este complet (cuantificarea post-instruire, sau PTQ), QAT integrează constrângerile de precizie numerică mai mică direct în bucla de instruire în sine, simulând aceste operațiuni în timpul procesului.

Google a declarat că a aplicat QAT pentru aproximativ 5.000 de etape de instruire, predând în esență modelul pentru a efectua bine utilizând mai puține biți pe număr de la numărul de la început. a diminuat scăderea obișnuită a calității asociate cu cuantificarea, invocând o reducere de 54% a scăderii perplexității (o măsură a cât de bine prezice un model text) pentru „formatul q4_0 [format] folosind evaluarea perplexității llama.cpp” în comparație cu metodele standard.

Qat în sine nu este nou; Este o tehnică consacrată susținută de cadre majore , dar aplicația sa aici produce beneficii practice. The Gemma 3 27B model saw its weight footprint decrease from 54 GB (BF16) to 14.1 GB (int4).

This reduction means the 14.1 GB int4 version now fits well within the 24GB VRAM found on cards like the NVIDIA RTX 3090. Other models saw similar drops: 12B from 24 GB to 6.6 GB (suitable for the 8GB VRAM in GPU-uri precum laptopul NVIDIA RTX 4060), 4B de la 8 GB la 2,6 GB și minuscul 1B de la 2 GB la 0,5 GB. În timp ce aceste economii sunt substanțiale,

sursă: Google

Google prudently added in its announcement: “This figure only represents the VRAM required to load the model weights. Running the model also requires additional VRAM for the KV cache, which stores information about the ongoing conversation and depends on the context length”.

The KV cache holds intermediate calculations related to the input sequence, growing larger as conversations or processed documents get longer, consuming additional memory beyond the base model weights. Această economie de memorie bazată pe QAT completează eficiența arhitecturală existentă în Gemma 3, concepută pentru a atenua creșterea cache-ului KV.

Capabilități dincolo de generarea de text

important, aceste câștiguri de eficiență nu par să sacrifice funcționalitatea de bază. Bazat pe model details, the Gemma 3 QAT models retain features from their BF16 predecessors, including the ability to process image inputs alongside text and maintain the extensive 128,000-token context window.

This long context capability is aided by architectural choices in the base Gemma 3 design, such as alternating local sliding window attention with global attention mechanisms, which helps manage the memory demands of the KV cache în timpul interacțiunilor lungi, conform modelului Raport tehnic . De asemenea, este de așteptat ca un sprijin larg de limbă, care acoperă peste 140 de limbi, conform rapoartelor anterioare. Simon Willison a împărtășit experiențe timpurii pozitive, rulând modelul QAT 27B prin ollama (folosind aproximativ 22 GB RAM-wide-wide) și MLX pe mașina sa personală, găsirea versiunii MLX nu a fost mai rapidă, în timp ce a folosit aproximativ 15 Gb de memorie. Buge Run Via , cum ar fi modele de ieșire Implementarea MLX, deși dezvoltatorii de instrumente au părut să abordeze rapid aceste probleme cu actualizări.

Mai mult, membrii comunității pe platforme precum Reddit au observat că fișierele oficiale GGUF (un format comun pentru modelele cuantificate utilizate de instrumente precum llama.cpp) pentru modelele QAT au fost mai mare decât teoretic necesar pentru greutăți int4. This was traced to the token embeddings table – which numerically represents words for the model – within the official GGUF files remaining unquantized (at half precision).

Savvy users demonstrated that by manually quantizing this specific table, the file sizes could be reduced further (fitting 12B in under 8GB, 27B under 16GB), potentially enabling use on GPUs with tighter VRAM constraints, deși cu modificări neoficiale.

Suport și disponibilitate ecosistemică

Google a făcut ca modelele oficiale INT4 și Q4_0 QAT să fie disponibile prin hugging Face și Kaggle , instruit folosind infrastructura sa TPU internă (TPUV4P, V5P, V5E). În mod crucial, sunt concepute pentru integrare cu instrumente populare de dezvoltatori. Sprijinul autohton există în Ollama, LM Studio , MLX (pentru Apple Silicon), Google’s Own gemma.cpp (pentru C ++ CPU Inference), iar llama.cpp (prin formatul GGUF). href=”https://ai.google.dev/gemma/gemmaverse” target=”_blank”>Gemmaverse,”where community contributors like Bartowski, unsloth și ggml Oferă versiuni alternative cuantificate, deseori folosind metode PTQ, oferind dezvoltatorilor cu mai multe alegeri în dimensiunea/viteza/viteza de tranzacții de calitate. > eficiență împingeți în industrie

Eliberarea Gemma 3 QAT vine în mijlocul unei industrii mai largi să se concentreze pe eficiența modelelor AI mai eficiente și mai accesibile. Cu o zi înainte de anunțul Google, Microsoft Research a dezvăluit BitNet B1.58 2B4T.

BitNET reprezintă o strategie diferită, utilizând o pregătire autohtonă la o precizie extrem de scăzută de 1,58 biți și în principal care vizează eficiența CPU. În timp ce Microsoft revendică rezultate impresionante, realizarea acestora necesită utilizarea unui specializat C ++ Framework (bitnet.cpp) , deoarece bibliotecile standard nu sunt optimizate pentru matematica sa unică. Acest lucru contrastează cu abordarea Google de a utiliza formatul INT4 mai standard și de a valorifica instrumentele existente, adoptate pe scară largă pentru inferența GPU, oferind potențial o cale de adopție mai ușoară pentru dezvoltatori axați pe rularea modelelor pe cardurile grafice pentru consumatori.

Categories: IT Info