; Vain 270 miljoonalla parametrilla tämä kompakti malli on suunniteltu kehittäjille luomaan erikoistuneita, hienosäädettyjä sovelluksia, jotka voivat toimia suoraan laitteissa, kuten älypuhelimissa tai jopa verkkoselaimessa.
Tavoitteena on sallia uusi nopea, yksityinen ja edulliset AI-ratkaisut tarjoamalla “oikea työkalu työlle”. Sen sijaan, että luotettaisiin massiivisiin pilvipohjaisiin järjestelmiin, Gemma 3 270M keskittyy hyvin määritettyjen tehtävien äärimmäiseen tehon tehokkuuteen, mikä tekee edistyneemmälle AI: lle helpommin saatavissa olevalle laitteelle ja reunatietokoneelle.
Gemma 3 270M: n julkaisu on viimeisin lisäys Googlen avoimien mallien”gemmaverse”laajentaminen . Se seuraa Gemma 3-sarjan alkuperäistä debyyttiä maaliskuussa, QAT-versioiden julkaisemista kuluttaja-GPU: lle huhtikuussa ja kesäkuussa Mobile First Gemma 3N: n lanseeraus. src=”data: kuva/svg+xml; nitro-tyhjennys-id=mty0nzoxmdu3-1; base64, phn2zyb2awv3qm94psiwidagmti4mca3mj AIIHDPZHROPSIXMJGWIIBOZWLNAHQ9IJCYMCIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”>
Tämä strategia vastaa laajempaa teollisuuden siirtymistä kohti pieniä kielimalleja (SLM). Microsoftin kaltaiset yritykset PHI-sarjassaan, Mistral AI: llä pienellä 3-mallillaan ja halaamalla kasvot SmolvLM-malleillaan kaikki sijoittavat voimakkaasti tehokkaaseen AI: hen.
Käynnistys edustaa strategista kääntöä AI-asekilpailussa, priorisoimalla kirurgista tarkkuutta raa’an voiman yli. Se korostaa kasvavaa teollisuussuuntausta, jossa pienemmistä, erikoistuneista malleista on tulossa välttämättömiä työkaluja käytännön, reaalimaailman käyttöönotolle.
“oikea työkalu työhön”-filosofia
strategisessa poistossa alan pakkomielle raakamaalla, Google on sijoittamassa Gemma 3 270M Ei kilpailijana massiiviselle, yleisen läpikäymismalleille, vaan korkealaatuisen perustana siitä, mitä se kutsuu”laihan laivastolle, asiantuntijajärjestelmiin.”Yrityksen virallinen ilmoitus vetoaa klassiseen tekniikan periaatteeseen: et käyttäisi kelkkakehää, joka ripustaa kuvakehyksen. Tämä malli ilmentää tätä”oikeaa työkalua työhön”filosofiaan , sillä sen todellinen potentiaali on suunniteltu avaamaan nopean, tehtävä-spesifisen hienosäätimen. Toiminnot, joissa nopeus ja kustannustehokkuus ovat ensiarvoisen tärkeitä. Google tunnistaa ihanteelliset käyttötapaukset, kuten tunteiden analyysi, yksikön poisto, kyselyjen reititys, luova kirjoittaminen, vaatimustenmukaisuustarkistukset ja rakenteettoman tekstin muuntaminen jäsenneltyihin tietoihin. Tavoitteena on antaa kehittäjille mahdollisuuden rakentaa ja ottaa käyttöön useita räätälöityjä malleja, joista kukin on asiantuntevasti koulutettu erilaiseen tehtävään ilman suurempiin järjestelmiin liittyviä kielteisiä kustannuksia.
Tämän erikoistuneen lähestymistavan voima on jo osoitettu todellisessa maailmassa. Google korostaa Adaptive ML: n työtä SK Telecomin kanssa, jossa hienosäädetty Gemma-mallille annettiin tehtäväksi vivahteikas, monikielinen sisällön maltillisuus. Tulokset olivat karkeat: Erikoistunut malli ei vain täyttänyt, vaan ylitti sen erityistyönsä paljon suuremmat omistusjärjestelmät. Tämä menestystarina toimii käytännöllisenä suunnitelmana siitä, kuinka kehittäjät voivat hyödyntää Gemma 3 270M: n tehokkuutta.
aloittamalla kompakti ja kykenevä perusta, kehittäjät voivat rakentaa tuotantojärjestelmiä, jotka ovat nopeampia ja dramaattisesti halvempia. Tämä strategia kohdistuu suoraan kustannustehokkaan AI: n kasvavaan tarpeeseen, joka voidaan käyttää mittakaavassa aiheuttamatta valtavia päätelmäkustannuksia. Mallin pieni koko mahdollistaa nopean iteraation, mikä mahdollistaa hienosäätökokeiden suorittamisen tunteina, ei päivinä. Tietyille erittäin erikoistuneille rooleille, kuten roolipelien NPC: t tai mukautettujen päiväkirjojen roolien, mallin kyvystä “unohtaa”yleinen tieto liiallisella tavalla tulee ominaisuus, varmistaen, että se pysyy laserkeskeisenä nimettyyn funktioon. Punch, tarkoituksellisten arkkitehtonisten kompromissien tulos. Mallin 270 miljoonaa parametria on jakautunut epätavallisesti: huomattava 170 miljoonaa on omistettu sen upotuskerrokselle, jolloin ydinmuuntajan lohkolle on vain 100 miljoonaa. Tämä suunnitteluvalinta mahdollistaa suoraan mallin standout-ominaisuuden: massiivinen 256 000-Toiss-sanasto.
Tämä suuri sanasto on avain sen erikoistumiskyvylle. Sen avulla malli voi käsitellä harvinaisia, erityisiä ja teknisiä merkkejä, joilla on korkea uskollisuus, mikä tekee siitä poikkeuksellisen vahvan perustan hienosäätöön niche-aloilla, kuten laki, lääketiede tai rahoitus. Ymmärtämällä alushousekohtainen žargoni alusta alkaen, se vaatii vähemmän koulutustietoja tullakseen asiantuntijiksi. Tätä täydentää kunnioitettu 32K: n token-kontekstiikkuna, jonka avulla se voi käsitellä merkittäviä kehotuksia ja asiakirjoja. Yhtiö on selvä, että Gemma 3 270M ei ole suunniteltu monimutkaisten, avoimien keskustelujen käyttötapauksiin, kuten chatbot. Sen sijaan ohjeiden viritetty versio on suunniteltu noudattamaan jäsenneltyjä kehotuksia ja komentoja tehokkaasti suoraan laatikosta, mikä tarjoaa luotettavan perustan lisämuokkaamiseen.
Tämä vankka malli vahvistetaan sen suorituskyvyn avulla teollisuuden vertailuarvoilla. IFEVAL-testissä, joka mittaa mallin kykyä noudattaa todennettavissa olevia ohjeita, Gemma 3 270m saavuttaa pistemäärän 51,2 prosenttia. Tämä pistemäärä on korkeampi kuin muut kevyet mallit, joissa on enemmän parametrejä, mikä osoittaa sen lyöntiä selvästi painonsa yläpuolelle. Vaikka se ennustettavasti ei ole miljardi-parametrimalleja, sen suorituskyky on huomattavan kilpailukykyinen sen murto-osan koosta.
äärimmäinen tehokkuus laitteessa AI
Gemma 3 270M: n keskeinen etu on alhainen voimankulutus. Pixel 9 Pro: n sisäiset testit osoittivat Int4-kvantisoidun mallin, jota käytettiin vain 0,75% laitteen akkuista 25 keskustelua varten, joten Googlen tehokkain Gemma-malli on tähän mennessä. Se varmistaa myös käyttäjän yksityisyyden, koska arkaluontoisia tietoja voidaan käsitellä paikallisesti ilman, että sitä koskaan lähetetään pilveen.
tämän helpottamiseksi Google tarjoaa tuotantovalmiita kvantisointitietoisia koulutettuja (QAT) tarkistuspisteitä. Tämän avulla kehittäjät voivat suorittaa malleja Int4 Precision-sovelluksessa minimaalisen suorituskyvyn heikkenemisen kanssa, mikä on ratkaiseva ominaisuus resurssien rajoittaman laitteiston käyttöönotossa.