Google DeepMind ha svelato un nuovo modello di intelligenza artificiale che consente ai robot di operare con la piena autonomia, non liberata dal cloud. Il nuovo sistema, chiamato Gemini Robotics On-Device, si svolge interamente sull’hardware locale di un robot, uno sviluppo critico che promette di rendere i sistemi robotici più veloci, più affidabili e in grado di funzionare in ambienti con connettività Internet intermittente o senza. Ciò segna un passo significativo verso la realizzazione di robot per uso generale pratico per le applicazioni del mondo reale.
Google DeepMind spiega che il nuovo modello, progettato per i robot a due bracci, non è solo efficiente ma anche altamente adattabile e progettato per richiedere risorse computazionali minime. È il primo dei modelli VLA (Vision Language-Action) dell’azienda da rendere disponibili per la messa a punto, consentendo agli sviluppatori di adattarlo per compiti nuovi e altamente abili con un minimo da 50 a 100 dimostrazioni. Questa capacità di generalizzare da una piccola quantità di nuovi dati potrebbe accelerare drasticamente la distribuzione di robot in impostazioni complesse.
Per facilitare questo, la società sta rilasciando un Programma Testatore Trusted -quali sviluppatori possono essere applicati per via Google. Questo lancio controllato sottolinea l’importanza strategica del modello in quanto la gara per costruire sistemi di intelligenza artificiale più capaci si intensifica tra i principali laboratori tecnologici.
mumo è una voce importante in un dibattito pivotale che si schiera in modo di debcare in modo da fare in modo da fare in modo da fare in modo da fare in modo da fare in modo che. L’elaborazione sul dispositivo è cruciale per la robotica in tempo reale perché elimina la latenza di rete inerente al cloud computing. Per i robot che interagiscono con il mondo fisico, un ritardo di conflitto nel processo decisionale può essere la differenza tra successo e fallimento. Ciò rende l’intelligenza artificiale locale essenziale per le applicazioni in cui le risposte istantanee non sono negoziabili.
Il principale compromesso per l’intelligenza artificiale sul dispositivo, tuttavia, è la limitazione intrinseca dell’hardware locale, che ha meno potenza e archiviazione di calcolo rispetto ai vasti server cloud. Questa sfida ha portato a diverse scommesse strategiche in tutto il settore. La figura AI, ad esempio, ha introdotto il suo modello di AI Helix ottimizzato dalla robotica a febbraio, che, come il nuovo sistema di Google, funziona interamente su GPU incorporate.
Al contrario, il modello Magma AI di Microsoft è progettato per una profonda integrazione con la sua piattaforma di cloud Azure, mirando all’automazione aziendale dove la connettività è più affidabile. La strategia di Google si è evoluta; La sua piattaforma di robotica Gemini di punta, introdotta a marzo, utilizza un approccio ibrido. Il nuovo modello sul dispositivo fornisce una soluzione dedicata per gli scenari in cui l’autonomia è fondamentale.
Un campo affollato di intelligenza fisica
investimento di capitale di rischio in robotica umanoide industriale triplicato nel 2024 a $ 1,2 miliardi , Segnalazione di una competizione intensa. Secondo la Federazione Internazionale di Robotica , il mercato globale per le installazioni di robot industriali ha già raggiunto un massimo di $ 16.5, con una tendenza a chiave per essere”fisica di Ai”piuttosto che una programmazione rigida.
Questo panorama competitivo include i principali attori che perseguono filosofie uniche. Mentre Google e Figura AI Champion On-Device Speed, Meta ha recentemente rilasciato V-Jepa 2, un”modello mondiale”open source che impara il buon senso fisico dal video. Questi modelli consentono a un’intelligenza artificiale di eseguire simulazioni interne di”pensare”prima che agisca, lasciando che le macchine”pianifichino movimenti e interazioni negli spazi simulati”prima di tentareli nel mondo fisico.
Questo approccio riduce notevolmente costosi prove e errori e accelera l’apprendimento per le attività nell’assemblaggio e nella logistica industriali. Questo metodo, incentrato sulla costruzione di una comprensione interna della fisica, offre un altro percorso verso la creazione di robot in grado di navigare in ambienti umani imprevedibili.
Insegnamento di robot per imparare come umani
nel cuore del nuovo modello di Google è un focus sulla generalizzazione: la capacità di svolgere nuovi compiti con una formazione minima. Ciò si ottiene attraverso una tecnica nota come apprendimento a pochi tiri (FSL), che consente a un modello di imparare da un numero molto piccolo di esempi. Questo approccio cerca a emulare l’abilità umana di cogliere rapidamente nuovi concetti, un netto contrasto con i modelli di AI tradizionali che spesso richiedono milioni di punti dati. Per la robotica, in cui la raccolta di vasti set di dati etichettati per ogni possibile attività è poco pratico, FSL è un punto di svolta.
Google afferma che Gemini Robotics On-Device può essere adattato con ben 50 a 100 dimostrazioni. La società ha fornito prove concrete di questa adattabilità, rilevando che mentre il modello è stato inizialmente addestrato per i robot Aloha, è stato adattato con successo a un robot a bi-braccio FR3 FR3 e al robot umanoide Apollo di Apptronik.
Questa capacità è ciò che consente il più ampio potenziale del sistema. Come ha spiegato Carolina Parada, responsabile della robotica di Google DeepMind, in segnalando dalla tecnica ARS , la potenza generativa della modella si estende oltre i semplici comandi.”Si sta attingendo alla comprensione del mondo multimodale di Gemini per svolgere un compito completamente nuovo… ciò che abilita è nello stesso modo in cui Gemini può produrre testo, scrivere poesie, basta riassumere un articolo, puoi anche scrivere codice e puoi anche generare immagini. SDK attraverso un programma limitato evidenzia un perno strategico più ampio all’interno di DeepMind. Il laboratorio, una volta un bastione della pubblicazione scientifica aperta, ora rilascia più selettivamente la sua tecnologia principale per proteggere il vantaggio competitivo di Google. Secondo quanto riferito, questo spostamento ha causato l’attrito internamente, con un ricercatore dicendo ai tempi finanziari
Questa posizione proprietaria contrasta bruscamente con il ruolo di Meta nell’intelligenza artificiale open source con i suoi modelli di lama, una strategia progettata per accelerare l’innovazione della comunità. Mentre questa apertura è lodata, le prestazioni dei modelli aperti hanno storicamente seguito le loro controparti a source chiusa. I migliori modelli open source sono rimasti indietro rispetto a quelli proprietari di diversi mesi, anche se quel divario si sta riducendo. Questa differenza di prestazioni aiuta a spiegare perché un’azienda come Google proteggerebbe la sua tecnologia più avanzata, anche se fornisce strumenti agli sviluppatori da costruire su di essa.
Il rilascio di Google di Gemini Robotics On-Device è una mossa calcolata nella competizione di alto livello per costruire la prossima generazione di macchine intelligenti. Affronta direttamente la necessità critica del settore di sistemi autonomi a bassa latenza, mentre mostra notevoli progressi nell’apprendimento rapido e umano. Tuttavia, il massimo impatto del modello sarà modellato non solo dalla sua abilità tecnica, ma anche dalla tensione strategica tra lo spirito collaborativo della ricerca aperta e le realtà custodite della concorrenza commerciale.