Ang Google ay gumawa ng isang hakbang patungo sa paggawa ng mas may kakayahang mga modelo ng AI na matatakbo sa pang-araw-araw na hardware sa pamamagitan ng paglabas ng mga espesyal na na-optimize na mga bersyon ng gemma 3 pamilya nito. hinihingi. Ang pangunahing kinalabasan ay ang mga sopistikadong modelo, kabilang ang malaking variant ng Gemma 3 27B, ay maaari na ngayong gumana sa mga sikat na kard ng graphics na antas ng consumer, na inilipat ang mga ito sa eksklusibong domain ng mga high-end data center accelerator. Ang plano na iyon ay natanto ngayon sa mga pagpapalabas ng QAT na ito. src=”data: imahe/svg+xml; nitro-empty-id=mty0otoxmte0-1; base64, phn2zyB2AWV3QM94PSIWIDAGMTAYNCA2NT Aiihdpzhropsixmdi0iibozwlnahq9ijy1mcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Ang paglabas ay sumusunod sa paunang debut ng serye ng Gemma 3 noong Marso 12 ,. Ang paglulunsad na iyon ay nagpakilala sa mga modelo na sumasaklaw sa 1 bilyon hanggang 27 bilyong mga parameter, na pinuri para sa malakas na pagganap-ang 27B modelo ay nakapuntos nang maayos sa mga paghahambing tulad ng LMSYS Chatbot Arena, ang isang sistema ng pagraranggo ng system sa pamamagitan ng kagustuhan ng tao-ngunit ang kanilang pag-asa sa format na BF16 ay nangangahulugang makabuluhang mga kinakailangan sa hardware, na madalas na nangangailangan ng mga sistema tulad ng NVIDIA’s H100. Ang mga Smarts

Hindi tulad ng pag-compress lamang ng isang modelo pagkatapos makumpleto ang pagsasanay (post-training quantization, o PTQ), isinasama ng QAT ang mga hadlang ng mas mababang bilang ng katumpakan nang direkta sa pagsasanay mismo ng pagsasanay, na ginagaya ang mga operasyon na ito sa panahon ng proseso. Ang pag-post, makabuluhang nabawasan ang karaniwang pagbagsak sa kalidad na nauugnay sa dami, na binabanggit ang isang 54% na pagbawas sa pagkawasak na pagtanggi (isang sukatan kung gaano kahusay ang hinuhulaan ng isang modelo) para sa”Q4_0 [format] gamit ang llama.cpp na naguguluhan na pagsusuri”kumpara sa mga karaniwang pamamaraan.

qat mismo ay hindi nobela; Ito ay isang itinatag na pamamaraan na suportado ng mga pangunahing frameworks , ngunit ang application dito ay nagbubunga ng mga praktikal na benepisyo. mga parameter. Ang modelo ng Gemma 3 27B ay nakita ang pagbaba ng bakas ng timbang nito mula sa 54 GB (BF16) hanggang 14.1 GB (INT4). Tulad ng NVIDIA RTX 4060 laptop), 4B mula 8 GB hanggang 2.6 GB, at ang maliit na 1B mula 2 GB hanggang 0.5 GB. Habang ang mga pagtitipid na ito ay malaki,

Google ay maingat na idinagdag sa anunsyo nito:”Ang figure na ito ay kumakatawan lamang sa VRAM na kinakailangan upang mai-load ang mga timbang ng modelo. Ang pagpapatakbo ng modelo ay nangangailangan din ng karagdagang VRAM para sa KV cache, na nag-iimbak ng impormasyon tungkol sa patuloy na pag-uusap at nakasalalay sa haba ng konteksto”. Ang pag-save ng memorya na batay sa QAT na ito ay umaakma sa umiiral na mga kahusayan sa arkitektura sa Gemma 3 na idinisenyo upang mabawasan ang paglaki ng cache ng KV. Batay sa Mga detalye ng modelo , ang mga modelo ng Gemma 3 Qat ay nagpapanatili ng mga tampok mula sa kanilang mga nauna sa BF16, kasama ang kakayahang iproseso ang mga input ng imahe sa tabi ng teksto ng konteksto na ito ay tinulungan ng mga pagpipilian sa arkitektura sa mga mekanismo ng gemma 3, tulad ng alternatibong lokal na sliding window na may pandaigdigang mga mekanismo ng pansin sa mga mekanismo ng memorya ng memorya ng memorya ng memorya ng memorya, KV cache sa panahon ng mahabang pakikipag-ugnay, ayon sa modelo Ulat sa Teknikal . Ang malawak na suporta sa wika, na sumasaklaw sa higit sa 140 mga wika ayon sa mga naunang ulat, ay inaasahan din na magdadala. Ibinahagi ni Simon Willison ang mga positibong maagang karanasan, na nagpapatakbo ng 27B QAT model sa pamamagitan ng ollama (gamit ang paligid ng 22GB ram system-wide) at mlx Sa kanyang personal na makina, ang paghahanap ng bersyon ng mlx Gayunman, ang mga paga. Tulad ng karaniwan sa mga bagong paglabas, ang ilang mga gumagamit sa una mas malaki kaysa sa teoretikal na kinakailangan para sa int4 na timbang. Ito ay nasubaybayan sa talahanayan ng mga embeddings ng token-na ayon sa numero ay kumakatawan sa mga salita para sa modelo-sa loob ng opisyal na mga file ng GGUF na natitirang hindi natukoy (sa kalahating katumpakan). kahit na may hindi opisyal na pagbabago. href=”https://huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b”target=”_ blangko”> hugging face at Kaggle , sinanay gamit ang panloob na imprastraktura ng TPU (TPUV4P, V5P, V5E). Crucially, ang mga ito ay dinisenyo para sa pagsasama sa mga sikat na tool ng developer. Ang suporta ng katutubong umiiral sa Ollama, lm studio , mlx (para sa apple silikon), sariling Google gemma.cpp (para sa c ++ cpu inference), at llama.cpp (sa pamamagitan ng GGUF format). href=”https://ai.google.dev/gemma/gemmaverse”target=”_ blangko”> gemmaverse ,”kung saan ang mga nag-aambag ng komunidad tulad ng bartowski , unsloth , at ggml nag-aalok ng alternatibong dami ng mga bersyon, madalas na gumagamit ng mga pamamaraan ng PTQ, na nagbibigay ng mga developer ng higit pang mga pagpipilian sa laki/bilis/kalidad ng spectrum. > Ang pagtulak ng kahusayan sa buong industriya

Ang araw bago ang anunsyo ng Google, ang Microsoft Research ay nagbukas ng Bitnet B1.58 2B4T. Habang inaangkin ng Microsoft ang mga kahanga-hangang resulta, ang pagkamit ng mga ito ay kinakailangan gamit ang isang dalubhasang C ++ Framework (bitnet.cpp) , dahil ang mga karaniwang aklatan ay hindi na-optimize para sa natatanging matematika. Ito ay kaibahan sa diskarte ng Google ng paggamit ng mas karaniwang format na INT4 at pag-agaw ng umiiral, malawak na pinagtibay na mga tool para sa pag-iintindi ng GPU, na potensyal na nag-aalok ng isang mas madaling landas ng pag-aampon para sa mga developer na nakatuon sa pagpapatakbo ng mga modelo sa mga kard ng graphics ng consumer.

Categories: IT Info