Google hat einen Schritt in die Lage versetzt, seine fähigeren KI-Modelle auf alltägliche Hardware zu machen, indem speziell optimierte Versionen ihrer Gemma 3-Familie freigesetzt wurden. Speicheranforderungen. Das primäre Ergebnis ist, dass hoch entwickelte Modelle, einschließlich der großen Gemma 3 27b-Variante, nun auf beliebten Grafikkarten auf Verbraucherebene arbeiten können und sie aus der ausschließlichen Domäne von High-End-Datenmitte-Beschleunigern herausziehen können. Dieser Plan wird jetzt mit diesen QAT-Veröffentlichungen realisiert. Src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mty0otoxmte0-1; Base64, Phn2zyb2AWV3QM94psiwidagmtaynca2nt Aiihdpzhropsixmdi0iibozwlnahq9ijy1mcigEg1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”>

Die Veröffentlichung folgt dem ersten Debüt der Gemma 3-Serie am 12. März. In diesem Start wurden Modelle eingeführt, die 1 Milliarde bis 27 Milliarden Parameter umfassten, die für eine starke Leistung gelobt wurden-das 27B-Modell, das in Vergleiche wie der LMSYS-Chatbot-Arena gut bewertet wurde, ein Systemranking-Modelle über menschliche Präferenzen-, aber ihre Abhängigkeit vom BF16-Format benötigte häufig Hardware-Anforderungen und benötigte häufig Systeme wie NVIDIA-H100. Smarts

Die Schlüsseltechnik ist das quantisierungsbewusste Training (QAT). Im Gegensatz zum einfachen Komprimieren eines Modells nach dem Training integriert QAT die Einschränkungen der niedrigeren numerischen Präzision direkt in die Trainingsschleife selbst und simuliert diese Operationen während des Prozesses. verringerte den üblichen Qualitätsabfall im Zusammenhang mit der Quantisierung und zitierte eine Verringerung des Verwirrungsrückgangs um 54% (ein Maß dafür, wie gut ein Modell Text vorhersagt) für das „Q4_0 [Format] unter Verwendung von LLAMA.CPP-Verwirrungsbewertung“ im Vergleich zu Standardmethoden. Es handelt sich um eine etablierte Technik, die von den wichtigsten Frameworks unterstützt wird. Das Gemma 3 27B-Modell verzeichnete sein Gewichtsfußabdruck von 54 GB (BF16) auf 14,1 GB (int4). Wie der Nvidia RTX 4060 Laptop), 4b von 8 GB bis 2,6 GB und die winzigen 1b von 2 GB bis 0,5 GB. Während diese Einsparungen erheblich sind,

Quelle: Google

Google fügte in seiner Ankündigung umsichtig hinzu: „Diese Zahl stellt nur das VRAM dar, das zum Laden der Modellgewichte erforderlich ist. Ausführen des Modells erfordert auch zusätzliches VRAM für den KV-Cache, der Informationen über die laufende Konversation speichert und abhängig von der Kontextlänge abhängt. Diese QAT-basierte Speichereinsparung ergänzt vorhandene architektonische Effizienz in Gemma 3, um das KV-Cache-Wachstum zu mildern. Basierend auf Modelldetails , die Gemma 3-QAT-Modelle behalten Merkmale von ihren BF16-Vorgängern bei, einschließlich der Fähigkeit, Bildeingaben neben Text zu verarbeiten und das umfangreiche 128.000-geschlagene Kontextfenster beizubehalten. KV-Cache während langer Interaktionen, gemäß dem Modell des Modells href=”https://vertexaisearch.cloud.google.com/grounding-api-redirect/awqvqakwcs6v_vhxob6vjx8inqkrmo MFHMAP8UBWPARJMEVIZ9TDXDL4QKIJ138NDR5US03MXO57EF1T1ZKFPMFH9_3Q6HEO9O0BBEUGPWISJCSTUII7PN44P7TIZQ==”target=”_ leer”> Technischer Bericht . Eine breite Sprachunterstützung, die laut früheren Berichten über 140 Sprachen abdeckt, wird auch erwartet, dass sie sich übertragen. Simon Willison hat positive frühe Erfahrungen geteilt und das 27B-QAT-Modell über ollama (mit etwa 22-GB-RAM-systemweit) und größer als theoretisch notwendig. Dies wurde auf die Token-Einbettungstabelle zurückgeführt-die numerisch Wörter für das Modell darstellt-innerhalb der offiziellen GGUF-Dateien, die unangemessen bleiben (bei halb Genauigkeit). Mit inoffiziellen Modifikationen. target=”_ leer”> umarmtes Gesicht und kaggle , trainiert mit seiner internen TPU-Infrastruktur (TPUV4P, V5P, V5P, V5P, V5P, V5P, V5E). Entscheidend ist, dass sie für die Integration mit beliebten Entwickler-Tools ausgelegt sind. Native Unterstützung existiert in Ollama, lm Studio , MLX (für Apple Silicon), Google’s Own gemma.cpp (Für c ++ cpu-Inferenz) und llama.cpp (über die GGUF-Format). href=”https://ai.google.dev/gemma/gemmaverse”target=”_ leer”> Gemmaverse “,”wobei Community-Mitwirkende wie unloth und ggml Bieten Sie alternative quantisierte Versionen an. > Effizienzschub durch die Branche

Die Gemma 3-QAT-Version erfolgt in einem breiteren Branchen-Fokus auf die Erstellung von KI-Modellen effizienter und zugänglicher. Erst am Tag vor der Ankündigung von Google stellte Microsoft Research BitNet B1.58 2B4T vor. Während Microsoft beeindruckende Ergebnisse behauptet, erfordert die Verwendung eines speziellen