Google sta abbracciando una filosofia”Less is More”con la sua ultima versione di AI, lanciando il modello aperto iper-efficiente Gemma 3 270m. Con solo 270 milioni di parametri, questo modello compatto è progettato per gli sviluppatori per creare applicazioni specializzate e perfezionate che possono funzionare direttamente su dispositivi come smartphone o anche all’interno di un browser Web. Invece di fare affidamento su enormi sistemi basati su cloud, Gemma 3 270m si concentra sull’efficienza di potenza estrema per compiti ben definiti, rendendo AI avanzata più accessibile per il dispositivo sul dispositivo e Edge. Target=”_ blank”> Espansione”gemmaverse”di modelli aperti . Segue il debutto iniziale della serie Gemma 3 a marzo, il rilascio delle versioni QAT per le GPU dei consumatori in aprile e il lancio del Mobile-First Gemma 3n a giugno.

Questa strategia si allinea con uno spostamento più ampio del settore verso i piccoli modelli di lingua (SLMS). Aziende come Microsoft con la sua serie PHI, Ai Mistral con il suo piccolo modello 3 e abbracci con i suoi modelli Smolvlm stanno investendo pesantemente in AI efficiente.

Il lancio rappresenta un perno strategico nella corsa agli armamenti AI, prioritaria per la priorità della precisione chirurgica sulla forza bruta. Sottolinea una tendenza del settore in crescita in cui modelli più piccoli e specializzati stanno diventando strumenti essenziali per l’implementazione pratica e nel mondo reale.

Uno”strumento giusto per il lavoro”Filosofia

in una partenza strategica dall’ossessione del settore, Google sta posizionando Gemma 3 270m Non come rivale a enormi modelli per la proposta generale, ma come una fondazione di alta qualità per quello che chiama un”flotta di sistemi di esperti.”L’annuncio ufficiale dell’azienda invoca un principio di ingegneria classico: non useresti una mazza per appendere una cornice. Questo modello incarna questo”giusto strumento per il lavoro”per il modello di manganello

Funzioni ben definite in cui la velocità e il rapporto costo-efficacia sono fondamentali. Google identifica i casi d’uso ideali come l’analisi dei sentimenti, l’estrazione di entità, il routing delle query, la scrittura creativa, i controlli di conformità e la conversione del testo non strutturato in dati strutturati. L’obiettivo è quello di consentire agli sviluppatori di costruire e distribuire più modelli personalizzati, ciascuno con competenza per un compito diverso, senza i costi proibitivi associati a sistemi più grandi.

Il potere di questo approccio specializzato è già stato dimostrato nel mondo reale. Google mette in evidenza il lavoro di Adaptive ML con SK Telecom, in cui un modello GEMMA perfezionato è stato incaricato di moderazione sfumata e multilingue. I risultati sono stati netti: il modello specializzato non solo si è incontrato ma ha sovraperformato sistemi proprietari molto più grandi nel suo compito specifico. Questa storia di successo funge da progetto pratico per il modo in cui gli sviluppatori possono sfruttare l’efficienza di Gemma 3 270m.

A partire da una base compatta e capace, gli sviluppatori possono costruire sistemi di produzione che sono più veloci e drammaticamente più economici da operare. Questa strategia si rivolge direttamente alla crescente necessità di AI economica che può essere distribuita su larga scala senza incorrere in costi di inferenza enormi. Le dimensioni ridotte del modello consentono la rapida iterazione, consentendo di completare gli esperimenti di messa a punto in ore, non i giorni. Per alcuni ruoli altamente specializzati, come NPC di gioco di ruolo o robot di journaling personalizzati, la capacità del modello di”dimenticare”la conoscenza generale attraverso l’adattamento diventa una caratteristica, assicurando che rimanga focalizzata sul laser sulla sua funzione designata.

Architettura compatta, performance compatta abilita Punch, a seguito di compromessi architettonici deliberati. I 270 milioni di parametri del modello sono distribuiti in modo non convenzionale: 170 milioni sostanziali sono dedicati al suo livello di incorporamento, lasciando solo 100 milioni per i blocchi di trasformatore di base. Questa scelta di design consente direttamente la caratteristica di spicco del modello: un enorme vocabolario di 256.000. Permette al modello di gestire token rari, specifici e tecnici con alta fedeltà, rendendolo una base eccezionalmente forte per la messa a punto in settori di nicchia come legge, medicina o finanza. Comprendendo fin dall’inizio il gergo specifico del settore, richiede meno dati di formazione per diventare un esperto. Ciò è integrato da una rispettabile finestra di contesto token 32K, consentendole di elaborare istruzioni e documenti sostanziali.

Per garantire l’usabilità immediata, Google sta rilasciando punti di controllo sia pre-addestrati che sintonizzati sulle istruzioni. La società è chiara che Gemma 3 270m non è progettato per casi d’uso conversazionali complessi e aperti come un chatbot. Invece, la versione sintonizzata sulle istruzioni è progettata per seguire i prompt e i comandi strutturati in modo efficace, fornendo una base affidabile per un’ulteriore personalizzazione.

Questo solido design è validato dalle sue prestazioni sui parametri di riferimento del settore. Nel test IFEVAL, che misura la capacità di un modello di seguire le istruzioni verificabili, Gemma 3 270M ottiene un punteggio del 51,2 per cento. Questo punteggio è superiore rispetto ad altri modelli leggeri che hanno più parametri, mostrando che punta ben al di sopra del suo peso. Mentre è prevedibilmente inferiore a modelli da miliardi di parametri, le sue prestazioni sono notevolmente competitive per le sue dimensioni frazionarie.

Efficienza estrema per AI on-Device

Un vantaggio chiave di Gemma 3 270M è il suo basso consumo di potenza. I test interni su un Pixel 9 Pro hanno mostrato un modello qualificato INT4 utilizzato solo lo 0,75% della batteria del dispositivo per 25 conversazioni, rendendo fino ad oggi il modello GEMMA più efficiente in termini di potenza di Google. Garantisce inoltre la privacy dell’utente, poiché le informazioni sensibili possono essere elaborate localmente senza mai essere inviate al cloud.

Per facilitare questo, Google fornisce checkpoint di formazione per la quantizzazione pronti per la produzione (QAT). Ciò consente agli sviluppatori di eseguire i modelli con precisione INT4 con un degrado minimo delle prestazioni, una caratteristica cruciale per la distribuzione su hardware con limitazione delle risorse.

Per gli sviluppatori, Gemma 3 270m è Disponibile ora attraverso piattaforme popolari come Hugging Face , ollama e kaggle, con integrazione in Verte di Google ai. Questa ampia accessibilità, elogiata da sviluppatori come Simon Willison che ha definito una precedente versione di Gemma”Il lancio più completo del primo giorno che ho visto per qualsiasi modello”, è la chiave per promuovere un ecosistema vibrante attorno a questi strumenti di AI più piccoli e più pratici.

Categories: IT Info