A Google lépéseket tett annak érdekében, hogy a mindennapi hardvereken képesbb AI-modelleket futtasson a Gemma 3 család speciálisan optimalizált verzióinak kiadása révén. követelmények. Az elsődleges eredmény az, hogy a kifinomult modellek, beleértve a nagy Gemma 3 27B változatot, most a népszerű fogyasztói szintű grafikus kártyákon működhetnek, és kiszoríthatják azokat a csúcskategóriás adatközpontok gyorsítók exkluzív tartományából. Ezt a tervet most ezekkel a QAT-kiadásokkal valósítják meg. src=”adatok: image/svg+xml; nitro-üres-id=mty0oToxmte0-1; base64, phn2zyb2awv3qm94psiwidagmtaynca2nt Aiihdpzhropsixmdi0iibozwlnahq9ijy1mcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>”>”>”>”>”>”>”>”>”>”>”>

A kiadás a Gemma 3 sorozat kezdeti debütálását követi, március 12-én. Ez az indítás bevezetett modelleket, amelyek 1 milliárd és 27 milliárd paramétert tartalmaznak, és dicsérték az erős teljesítményért-a 27B-os modell jól szerezte az összehasonlításokat, mint például az LMSys Chatbot Aréna, egy rendszerrangsorolási modellek az emberi preferencián keresztül-, de a BF16 formátumra való támaszkodásuk jelentős hardverkövetelményeket jelentett, gyakran szükségük van olyan rendszerekre, mint az NVIDIA H100. Smarts

A kulcs technika a kvantálási-tudatos edzés (QAT). Ellentétben az edzés utáni modell egyszerű tömörítésével (az edzés utáni kvantálás vagy a PTQ), a QAT az alacsonyabb numerikus pontosság korlátozásait közvetlenül az edzési hurokba integrálja, szimulálva ezeket a műveleteket a folyamat során. Csökkentette a kvantáláshoz kapcsolódó minőségi csökkenést, hivatkozva a zavartság csökkenésének 54%-os csökkenésére (annak a mérőszáma, hogy a modell mennyire jósolja a szöveget) a „Q4_0 [formátum] llama.cpp-értékeléssel” összehasonlítva a standard módszerekkel.

qat maga nem újszerű; Ez egy létrehozott technika, amelyet a fő keretek támogatása támogat. paraméterek. A Gemma 3 27b modell súlyának lábnyoma 54 GB-ról (BF16) 14,1 GB-ra (INT4) csökken. GPU-k, mint az NVIDIA RTX 4060 laptop), 4B 8 GB-tól 2,6 GB-ig, és az apró 1B 2 GB-ról 0,5 GB-ra. Noha ezek a megtakarítások jelentősek,

forrás:”> forrás: Google

A Google körültekintően hozzáadta a bejelentéshez: „Ez az ábra csak a modell súlyának betöltéséhez szükséges VRAM-ot képviseli. A modell futtatásához további VRAM-t igényel a KV gyorsítótárhoz, amely információkat tárol a folyamatban lévő beszélgetésről, és a kontextus hosszától függ.

A KV-gyorsítótár-kiegészítő memória túlzott mértékű, a kiegészítő memóriakon kívüli anyagokat tartalmaz. Ez a QAT-alapú memória-megtakarítás kiegészíti a GEMMA 3 meglévő építészeti hatékonyságát, amelynek célja a KV gyorsítótár növekedésének enyhítése. A Modell részletek , A Gemma 3 QAT modellek megőrzik a funkciókat a BF16 elődjeiktől, ideértve a képbemenetek feldolgozásának képességét a szöveg mellett, és fenntartani a kiterjedt 128 000-es kontextus ablakot. gyorsítótár hosszú interakciók során, a modell Műszaki jelentés . A széles körű nyelvi támogatás, amely több mint 140 nyelvet fed le a korábbi jelentések szerint, szintén várhatóan átviszik. Simon Willison pozitív korai tapasztalatokat osztott meg, a 27B QAT modell futtatásával ollama (körülbelül 22 GB-os RAM rendszer-széles) és mlx A személyes gépén nem volt az MLX verzió nélkül, miközben kb. Azonban. Mint az új kiadásoknál gyakori, egyes felhasználók kezdetben Bugs , mint például a modellek kimenete, mikor adják meg a modelleket. Az MLX megvalósítása, bár a szerszámfejlesztők úgy tűnt, hogy gyorsan foglalkoznak ezekkel a kérdésekkel frissítésekkel. href=”https://www.reddit.com/r/localllama/comments/1jsq1so/smaller_gemma3_qat_versions_12b_in_8gb_and_27b_in/”Target=”_ üres”> az elméletileg szükséges az int4 súlyokhoz. Ezt a token beágyazási táblázathoz vezetik-amely számszerűen képviseli a modell szavait-a hivatalos GGUF fájlokban, amelyek megcáfolatlanul maradnak (félig pontossággal). Nem hivatalos módosításokkal. Target=”_ üres”> Face átölelése és kaggle , belső TPU infrastruktúrájával (TPUV4P, V5P) képzett. Lényeges, hogy a népszerű fejlesztői eszközökkel való integrációra tervezték. A natív támogatás létezik Ollamában, lm stúdió , mlx (az Apple szilícium), a Google saját gemma.cpp (C ++ CPU következtetés) és llama.cpp (a gguf formátumon keresztül). href=”https://ai.google.dev/gemma/gemmaverse”Target=”_ üres”> GemmAverse , ahol a közösségi közreműködők olyanok, mint a bartowski”> bartowski”> bartowski”> bartowski”> bartowski”> bartowski”> bartowski”> bartowski href=”https://huggingface.co/collections/unsloth/gemma-3-67d12b7e8816ec6efa7e4e5b”Target=”_ blank”> unlloth , és ggml alternatív kvantált verziókat kínál, gyakran PTQ módszerekkel, a fejlesztők számára több választási lehetőséget biztosítva. > A hatékonyság elérése az iparágban

A GEMMA 3 QAT-kiadás egy szélesebb iparág közepette áll, hogy az AI modelleket hatékonyabbá és hozzáférhetőbbé tegye. A Google bejelentése előtti napon a Microsoft Research bemutatta a BitNet B1.58 2B4t. Noha a Microsoft lenyűgöző eredményeket állít, ezek elérése szükségessé teszi egy speciális c ++ keretrendszer (bitnet.cpp) , mivel a szokásos könyvtárakat nem optimalizálják az egyedi matematikájához. Ez ellentétben áll a Google megközelítésével a szokásos INT4 formátum használatával és a meglévő, széles körben alkalmazott eszközök kiaknázásával a GPU következtetéseihez, potenciálisan könnyebben elfogadási útvonalat kínálva a fejlesztők számára, amelyek a modellek futtatására összpontosítanak a fogyasztói grafikus kártyákon.

Categories: IT Info