Google ha completamente rilasciato Gemma 3N, una nuova generazione di modelli di intelligenza artificiale open source progettati per portare potenti capacità multimodali direttamente ai dispositivi di consumo. In una mossa significativa per democratizzare l’intelligenza artificiale avanzata, questi modelli possono elaborare immagini, audio e input video per generare testo mentre operano su hardware con un minimo di 2 GB di memoria, senza stenare l’intelligenza artificiale dal cloud.
il rilascio, dettagliato in un Guida ufficiale di sviluppatori , introduce una famiglia di modelli”mobile-first”che si erge in contrasto con i più grandi sistemi gemini di Google. I nuovi modelli sono disponibili in due dimensioni principali, E2B ed E4B, che utilizzano innovazioni architettoniche per funzionare con un’impronta di memoria paragonabile a modelli molto più piccoli. Questa svolta di efficienza significa che gli sviluppatori possono ora costruire e distribuire applicazioni di intelligenza artificiale sofisticate e offline su una vasta gamma di hardware quotidiano, dagli smartphone ai laptop.
Il lancio segue un’anteprima di Google I/O e rappresenta il culmine di una strategia iniziata all’inizio di quest’anno. The full release solidifies Google’s push to empower the developer community with tools that were previously the domain of large-scale data centers, fundamentally changing who can build with cutting-edge AI.
The Architettura di accessibilità
al centro dell’efficienza di Gemma 3n è una nuova architettura progettata da zero per le prestazioni sul dispositivo. Google sta introducendo ciò che chiama matformer o trasformatore Matryoshka, architettura , che nidifica modelli più piccoli e pienamente funzionali all’interno di uno più grande. Ciò consente agli sviluppatori di distribuire uno spettro di dimensioni del modello su misura su specifici vincoli hardware, con Google che fornisce un matformer lab Per aiutare a identificare configurazioni ottimali.
Ulteriori efficienza efficienza Questa innovazione consente di elaborare gran parte dei parametri del modello sulla CPU principale di un dispositivo, riducendo drasticamente la quantità di memoria di acceleratore ad alta velocità (VRAM) richiesta. L’architettura utilizza anche la condivisione della cache di KV, che l’azienda afferma che raddoppia la velocità dell’elaborazione iniziale.
[contenuto incorporato]
La”gemmaversa”e la strategia aperta di Google
Gemma 3n non è un prodotto standalone ma l’ultima stella in una costante crescente di modelli aperti Google chiama il”gemmatico”. Questa strategia ecosistema sembra essere una parte fondamentale dell’approccio a doppio fronto dell’azienda allo sviluppo dell’IA. Secondo Un’intervista di VentureBeat Con Google Product Manager Priya Singh, la società vede i suoi modelli aperti e chiusi come avere una relazione simbiotica. Google non vede Gemma e Gemelli come concorrenti, più due lati della stessa moneta. L’azienda analizza ciò che gli sviluppatori costruiscono con Gemma per identificare dove andare dopo con la ricerca di frontiera.
Questa strategia è evidente nella varietà di modelli specializzati a marchio Gemma rilasciato nell’ultimo anno. Questi includono txgemma, una suite di strumenti per la scoperta di droghe costruita sull’architettura Gemma 2 precedente e il Dolfingemma altamente specializzato. The latter is a unique collaboration with the Wild Dolphin Project to analyze decades of dolphin recordings, attempting to find patterns in animal communication—a task that pushes the boundaries of AI application.
A Developer’s Perspective: Power Meets Practicality
The true test of an open model is its reception by the developer community, and the Gemma 3n launch was met con entusiasmo per la sua usabilità immediata. Lo sviluppatore indipendente Simon Willison ha elogiato la natura completa del rilascio, definendolo”Gemma 3n è anche il lancio più completo della prima giornata che abbia mai visto per qualsiasi modello”. Nei test pratici dettagliato sul suo blog , Willison ha messo in evidenza il supporto ampio e day-uno da strumenti popolari come Ollama e MLX. Mentre usava con successo una versione del modello per la trascrizione audio, ha anche notato alcune stranezze iniziali, con il modello che non riusciva a descrivere correttamente un’immagine che aveva appena generato.
per stimolare ulteriormente questo tipo di coinvolgimento della comunità, Google ha lanciato il , una competizione con $ 150.000 in premi per gli sviluppatori che utilizzano i nuovi modelli per costruire prodotti per il bene sociale.
Misurazione: Multimodalità e competizione di mercato
Le vedute architettoniche e le caratteristiche idonee per gli sviluppatori sono sostenute da prestazioni forti e nuove capacità. I modelli sono dotati di un codificatore audio avanzato basato sul modello vocale universale (USM) e un nuovo encoder di visione statale-olero di efficienza e potere ha prodotto risultati impressionanti sulle classifiche. La più grande variante GEMMA 3N E4B è il primo modello sotto i 10 miliardi di parametri per ottenere un punteggio LMARENA di oltre 1300, un punto di riferimento che misura le prestazioni basate sulle preferenze umane.
Questo percorso verso il potere sul dispositivo è iniziato con il debutto iniziale della famiglia di Gemma a marzo, i cui modelli più ampi sono stati resi pratici per un uso locale da un rilascio di una famiglia in aereo in aprile.
Ingegneria di un potente modello multimodale che può vivere sui dispositivi che le persone usano ogni giorno, Google non sta solo rilasciando un nuovo strumento ma sta facendo una dichiarazione chiara. La mossa sfida l’idea che l’intelligenza artificiale all’avanguardia debba risiedere esclusivamente nel cloud, consentendo a una nuova ondata di sviluppatori di costruire la prossima generazione di applicazioni intelligenti, private e accessibili.