Google on ottanut askeleen kohti kykenevämpiä AI-malleja, jotka voidaan käyttää päivittäisessä laitteistossa julkaisemalla Gemma 3-perheen erityisesti optimoidut versiot. muisti vaatii. Ensisijaisena lopputuloksena on, että hienostuneet mallit, mukaan lukien suuri Gemma 3 27b-variantti, voivat nyt toimia suosituilla kuluttajatason näytönohjaimilla, siirtämällä ne pois huippuluokan datakeskuksen kiihdyttimien yksinoikeudesta. Tämä suunnitelma toteutetaan nyt näillä QAT-julkaisuilla.

Julkaisu seuraa Gemma 3-sarjan alkuperäistä debyyttiä 12. maaliskuuta. Kyseinen käynnistys esitteli 1 miljardin-27 miljardin parametrin kattavia malleja, joita kiitettiin vahvan suorituskyvyn suhteen-27b-malli sai hyvin vertailuissa, kuten LMSYS Chatbot Arena, järjestelmän sijoitusmallit ihmisen mieltymyksen kautta-mutta niiden luottamus BF16-muotoon tarkoitti merkittäviä laitteistovaatimuksia, usein NVIDIA: n H100: n kaltaisia ​​järjestelmiä. Smarts

Keskeinen tekniikka on kvantisointitietoinen koulutus (QAT). Toisin kuin pelkästään mallin pakaaminen koulutuksen jälkeen on valmis (koulutuksen jälkeinen kvantisointi tai PTQ), Qat integroi alhaisemman numeerisen tarkkuuden rajoitukset suoraan itse harjoitussilmukkaan, simuloimalla näitä toimintoja prosessin aikana.

Google ilmoitti, että se soveltaa QAT: ta noin 5000 koulutusvaiheeseen, joka on olennaisesti opettanut mallin suorittamaan hyvin vähemmän blogia, joka on merkitsevä blogi. Vähensi kvantisointiin liittyvää tavanomaista laadun laskua, viitaten hämmennyksen vähentymiseen 54%: n vähenemiseen (mitataan malli ennustaa tekstin) “Q4_0 [FORME] käyttämällä LLAMA.CPP: n hämmentävyyden arviointia”verrattuna standardimenetelmiin.

qat ei ole uusi; Se on vakiintunut tekniikka, jota suuret kehykset tukevat , mutta sen sovellus tuottaa käytännölliset hyödyt.

käytännön hyöty on STEPE-pelkistys VRAM: n (video-muisti). Gemma 3 27b-mallissa oli painojalanjälki laski 54 Gt: sta (BF16) 14,1 Gt: iin (INT4).

Tämä pelkistys tarkoittaa 14,1 GB: n INT4-versiota, joka nyt sopii hyvin 24 Gt: n VRAM: iin, jotka löydettiin korteista, kuten Nvidia RTX 3090. Muut mallit näkivät samanlaiset tipat: GPU: t, kuten NVIDIA RTX 4060-kannettava tietokone), 4B 8 GB: stä 2,6 Gt: iin ja pieni 1B 2 gb: stä 0,5 Gt: iin. Vaikka nämä säästöt ovat merkittäviä,

Lähde: Google

Google lisätään varovaisesti ilmoitukseensa: “Tämä luku edustaa vain mallipainon lataamiseen tarvittavaa VRAM: ää. Mallin suorittaminen vaatii myös lisä VRAM: ää KV-välimuistiin, joka tallentaa tietoja meneillään olevasta keskustelusta ja riippuu kontekstin pituudesta”. Tämä QAT-pohjainen muistinsäästö täydentää olemassa olevaa arkkitehtonista tehokkuutta Gemma 3: ssa, joka on suunniteltu lieventämään KV-välimuistin kasvua.

Tekstien muodostumisen ominaisuudet

Tärkeää on, että nämä tehokkuuden saavutukset eivät näytä uhrattavan ydintoiminnallisuutta. Perustuu Mallitiedot , Gemma 3 QAT-mallit säilyttävät ominaisuudet heidän BF16-edeltäjistään, mukaan lukien kyky käsitellä kuvan syötteitä tekstin rinnalla ja ylläpitää laajaa 128 000-luvun kontekstin ikkunaa. Pitkän vuorovaikutuksen aikana mallin tekninen raportti . Laajan kielen tuen, joka kattaa yli 140 kieltä aikaisempien raporttien mukaan, odotetaan myös siirtyvän.

juokseminen omalla koneellasi: kokemukset ja esteet

VRAM-pelkistys avaa ovi näiden mallien suorittamiseksi laajalti omistamissa laitteistoissa. Simon Willison jakoi positiiviset varhaiset kokemukset, suorittaen 27b Qat-mallin ollama (käyttämällä noin 22 Gt RAM-järjestelmää) ja mlx Hänen henkilökohtaisesta koneestaan, joka löytää MLX-version, joka ei tuntuisi noin 15GB: n. Kuitenkin. Kuten uusien julkaisujen kanssa on yleistä, jotkut käyttäjät alun perin RUNTED VARA-BUGS

Lisäksi Redditin kaltaisten alustojen kaltaisten alustojen jäsenet havaitsivat, että viralliset GGUF-tiedostot (yleinen muoto kvantisoiduille malleille, joita LLAMA.CPP: n kaltaiset työkaluja käyttävät) olivat Suurempi kuin teoreettisesti välttämätöntä int4: lle. Tämä jäljitettiin tunnuksen upotustaulukkoon-joka edustaa numeerisesti mallin sanoja-virallisissa GGUF-tiedostoissa, jotka ovat jäljellä määriteltyjä (puoli tarkkuutta).

-taitokäyttäjät osoittivat, että tämän tiettyjen taulukon manuaalisesti kvantitatiivisella määrittämällä tiedostokoot voidaan vähentää edelleen (sopii 12B: n alle 8 GB: n 27B: n alle), potentiaalisesti käyttökeinojen käyttökeinojen kanssa Epäviralliset muutokset. Target=”_ tyhjä”> halaaminen kasvot ja kaggle , koulutettuna sen sisäisen TPU-infrastruktuurin avulla (TPUV4P, V5P, V5E). Tärkeää on, että ne on suunniteltu integroitumaan suosittuihin kehittäjätyökaluihin. Alkuperäistä tukea on Ollamassa, LM-studio , MLX (Apple-pii), Googlen oma gemma.cpp (C ++ CPU-päätös), ja Llaama.cpp (GGUF-muodon kautta). href=”https://ai.google.dev/gemma/gemmaverse”Target=”_ tyhjä”> gemmaverse ,”missä yhteisön avustajat, kuten Unsloth ja GGML Tarjoa vaihtoehtoisia kvantitoituja versioita, usein PTQ-menetelmiä. > Tehokkuusprosentti koko alan

Gemma 3 QAT-julkaisu on leveämmän teollisuuden keskittymisen keskellä AI-mallejen tekemiseen tehokkaampia ja helposti saavutettavissa olevia. Juuri päivää ennen Googlen ilmoitusta Microsoft Research julkisti Bitnet B1.58 2B4T. Vaikka Microsoft väittää vaikuttavia tuloksia, niiden saavuttaminen edellyttää erikoistunutta C ++-kehys (bitnet.cpp) , koska vakiokirjastot eivät ole optimoitu sen ainutlaatuiseen matematiikkaan. Tämä on ristiriidassa Googlen lähestymistavan käyttäminen standardimpaan Int4-muotoon ja hyödyntää olemassa olevia, laajalti hyväksyttyjä työkaluja GPU-päätelmiin, mikä mahdollisesti tarjoaa helpomman käyttöönottopolun kehittäjille, jotka ovat keskittyneet malleihin kuluttajien näytönohjaimiin.

Categories: IT Info