Google ha fatto un passo a rendere i suoi modelli di AI più capaci in rovina su hardware quotidiano rilasciando versioni appositamente ottimizzate della sua famiglia Gemma 3.
I modelli impiegano una formazione di quantizzazione (Qat) e usano la precisione intera a 4 bit (Int4)-a BFF16 (BFF16) richieste. Il risultato principale è che modelli sofisticati, tra cui la grande variante Gemma 3 27B, possono ora operare su schede grafiche popolari a livello di consumatore, spostandoli dal dominio esclusivo di acceleratori di data center di fascia alta. Quel piano è ora realizzato con queste versioni QAT.
Source: Google
Shrinking Models While Preserving Smarts
La tecnica chiave è l’allenamento consapevole della quantizzazione (QAT). A differenza della semplice compressione di un modello dopo l’allenamento è completa (quantizzazione post-training o PTQ), il Qat integra i vincoli di una precisione numerica inferiore direttamente nel ciclo di formazione stesso, simulando queste operazioni durante il processo.
Google ha affermato che si è applicato il Qat per il blog, essendo essendo essenziale questo modello, secondo i bit, secondo il numero di inizio. Post, ha significativamente ridotto il solito calo della qualità associata alla quantizzazione, citando una riduzione del 54% del declino della perplessità (una misura del modo in cui un modello prevede il testo) per il”Q4_0 [formato] usando la valutazione della perplessità Llama.CPP rispetto ai metodi standard.
non è nuovo; parametri. Il modello Gemma 3 27B ha visto la sua impronta di peso diminuire da 54 GB (BF16) a 14,1 GB (INT4).
Questa riduzione significa che la versione INT4 14,1 GB ora si adatta bene all’interno del VRAM da 24 GB. GPU come il laptop Nvidia RTX 4060), 4b da 8 GB a 2,6 GB e il minuscolo 1b da 2 GB a 0,5 GB. Mentre questi risparmi sono sostanziali,
La cache KV contiene i calcoli intermedi correlati alla sequenza di input, crescendo più grande con le conversazioni o elaborate i documenti elaborati più a lungo, consumo del modello di base. Questo risparmio di memoria basato su QAT completa le efficienze architettoniche esistenti in Gemma 3 progettate per mitigare la crescita della cache di KV.
Capacità oltre la generazione di testo
soprattutto, questi guadagni di efficienza non sembrano sacrificare la funzionalità principale. Basato su Dettagli del modello , i modelli GEMMA 3 QAT trattengono le caratteristiche dai loro predecessori BF16, inclusa la capacità di elaborare gli input di immagini insieme al testo e mantenere la vasta finestra di contesto di 128.000 persone. cache durante lunghe interazioni, secondo il modello Rapporto tecnico . Si prevede anche un supporto in linguaggio ampio, che copre oltre 140 lingue secondo i precedenti rapporti. Simon Willison ha condiviso le prime esperienze positive, eseguendo il modello Qat 27B tramite ollama (usando circa 22 GB di sistema RAM) e mlx sulla sua macchina personale, trovando la versione MLX che si è sentita più semplice durante l’utilizzo di circa 15gg dossi, tuttavia. Come è comune con le nuove versioni, alcuni utenti inizialmente BUGS
Inoltre, i membri della comunità su piattaforme come Reddit hanno osservato che i file GGUF ufficiali (un formato comune per i modelli quantizzati utilizzati da strumenti come Llama.CPP) per i modelli QAT erano più grande di teoricamente necessario per ingori int4. Questo è stato ricondotto alla tabella di incorporamento token-che rappresenta numericamente le parole per il modello-all’interno dei file GGUF ufficiali rimanenti non equivalenti (a metà precisione).
Gli utenti esperti hanno dimostrato che si riduce a una tabella specifica, le dimensioni dei file potrebbero essere ridotte (adattandosi a 12b (adattamento di 12b in meno di 8GB, 27b sotto 16GB), potenzialmente quantificando il percorso di gigam, il percorso di gpus, è stato ridotto per il percorso di gigo sebbene con modifiche non ufficiali.
supporto ecosistema e disponibilità
Google ha reso disponibili i modelli ufficiali INT4 e Q4_0 QAT tramite abbraccio faccia e kaggle , addestrato usando la sua infrastruttura TPU interna (TPUV4P, V5P, V5E). Fondamentalmente, sono progettati per l’integrazione con strumenti per sviluppatori popolari. Il supporto nativo esiste in ollama, lm studio , mlx (per Apple Silicon), Google’s Own gemma.cpp (per C ++ CPU Ricollegano href=”https://ai.google.dev/gemma/gemmaverse”target=”_ blank”> gemmaverse “, in cui collaboratori della comunità come unsloth e ggml Offri versioni alternative quantizzate, utilizzando spesso metodi PTQ, fornendo sviluppatori con più scelte nelle dimensioni/velocità di spese di qualità. > Spinga di efficienza in tutto il settore
Il rilascio di GEMMA 3 QAT arriva in mezzo a una più ampia attenzione del settore sul rendere i modelli di intelligenza artificiale più efficienti e accessibili. Proprio il giorno prima dell’annuncio di Google, Microsoft Research ha presentato Bitnet B1.58 2B4T.
Bitnet rappresenta una strategia diversa, impiegando una formazione nativa con una precisione estremamente bassa da 1,58 bit e mira principalmente all’efficienza della CPU. Mentre Microsoft rivendica risultati impressionanti, raggiungendoli richiede l’utilizzo di un framework C ++ (BITNET.cpp) , poiché le librerie standard non sono ottimizzate , poiché le librerie standard non sono ottimizzate per la sua matematica univoca. Ciò contrasta con l’approccio di Google sull’utilizzo del formato INT4 più standard e sfrutta gli strumenti esistenti e ampiamente adottati per l’inferenza della GPU, offrendo potenzialmente un percorso di adozione più semplice per gli sviluppatori focalizzati sulla gestione di modelli su schede grafiche dei consumatori.