Con l’obiettivo di replicare la propria posizione dominante nel mondo degli smartphone nel mondo fisico, Google DeepMind ha reclutato Aaron Saunders, ex CTO di Boston Dynamics, per guidare una nuova divisione di ingegneria hardware.
L’assunzione segna un passaggio decisivo verso una strategia”Android for Robots”, in cui l’intelligenza artificiale multimodale di Gemini fungerà da sistema operativo universale per macchine di terze parti.
Con l’inserimento dell’architetto dietro i robot Atlas e Spot, DeepMind cerca di risolvere i problemi critici Collo di bottiglia”sim-to-real”che attualmente limita l’intelligenza artificiale incorporata, sfidando rivali integrati verticalmente come Tesla e Figure AI.
The’Android’Play: un cervello universale per qualsiasi corpo
Il CEO di DeepMind, Demis Hassabis, ha esplicitamente inquadrato la strategia robotica dell’azienda come gioco di ecosistema, rispecchiando il modello che ha reso Android il sistema operativo mobile dominante nel mondo. Piuttosto che costruire robot proprietari per gli utenti finali, l’obiettivo è creare una”base Gemini”, uno strato di intelligenza artificiale fondamentale in grado di controllare diverse configurazioni hardware”pronto all’uso”.
In un’intervista con WIRED all’inizio di questa settimana, Hassabis ha descritto l’iniziativa come”un po’come un gioco Android… Vogliamo costruire un sistema di intelligenza artificiale, una base Gemini, che possa funzionare quasi fuori dagli schemi, su qualsiasi configurazione corporea.”Questo approccio sfrutta le capacità multimodali dei modelli Gemini, che elaborano visione, linguaggio e azione (VLA) simultaneamente anziché in silos.
Come ha notato Carolina Parada, responsabile della robotica, durante il rilascio di Gemini Robotics SDK a giugno, il modello rappresenta un passo avanti significativo perché”è attingendo alla comprensione del mondo multimodale di Gemini… Puoi anche scrivere codice e generare immagini. Può anche generare azioni robotiche.”
L’attenzione strategica ora si basa su un futuro in cui l’hardware diventa mercificato e intercambiabile, mentre il valore si accumula nello strato di intelligenza: il”cervello”.
Dando priorità ai margini del software rispetto alle complessità della produzione, Hassabis ha sottolineato:”Sono più interessato alla parte cerebrale [AI].”Il recente rilascio da parte di DeepMind dell’SDK Gemini Robotics e del modello”Robotics-ER”(incentrato sul ragionamento incarnato) funge da kit di strumenti per gli sviluppatori per questo ecosistema.
Disaccoppiando l’intelligenza dallo chassis, Google mira a evitare le trappole ad alta intensità di capitale della produzione di hardware, garantendo al tempo stesso che i suoi modelli di intelligenza artificiale diventino lo standard del settore. Ciò rispecchia il suo approccio con Android, dove Google fornisce la struttura software per Samsung, Xiaomi e altri, mettendo a dura prova l’intero ecosistema senza costruire ogni dispositivo.
Il paradosso dell’hardware: perché un gigante del software ha bisogno di un costruttore
Nonostante la narrativa”Android”incentrata sul software, il reclutamento di Aaron Saunders, un veterano di Boston Dynamics da 23 anni, segnala una sfumatura critica nell’approccio di Google.
Saunders, che ha ricoperto il ruolo di CTO durante la commercializzazione di Spot e lo sviluppo del robot acrobatico Atlas, apporta una profonda esperienza nelle realtà meccaniche che i modelli software puri spesso ignorano.
[contenuto incorporato]
Nominato vicepresidente dell’ingegneria hardware, il suo ruolo suggerisce che Google sta adottando una”strategia Pixel”: costruire hardware di riferimento per convalidare e superare i limiti del proprio software.
Il reclutamento di un costruttore affronta la persistente Divario”dalla simulazione alla realtà”, in cui gli agenti IA addestrati in simulazioni digitali perfette-come quelle dettagliate nel nostro articolo sull’introduzione della Gemini Robotics-falliscono quando incontrano attrito, rumore dei sensori e imprevedibilità fisica.
Hassabis prevede che”la robotica basata sull’intelligenza artificiale avrà il suo momento di svolta nei prossimi due anni, se dovessi prevederlo”, una sequenza temporale che richiede la risoluzione immediata di questi problemi di messa a terra fisica.
L’esperienza di Saunders con l’idraulica e l’elettricità l’attuazione offre un contrappeso alla cultura basata sulla ricerca di DeepMind, accelerando potenzialmente l’implementazione del ragionamento”Deep Think”negli agenti fisici.
Il successo si basa sul presupposto che i modelli software non possono veramente maturare senza un ciclo di feedback da parte di hardware avanzato. Proprio come il telefono Pixel dimostra tutte le funzionalità di Android, un robot di riferimento progettato da DeepMind potrebbe mostrare il ragionamento in tempo reale di Gemini 3 Pro in scenari reali.
L’integrazione dei sensori e i circuiti di controllo degli attuatori costituiranno probabilmente il focus principale della divisione, consentendo a Gemini di”sentire”il mondo, non solo di vederlo. Questo radicamento fisico è essenziale per le funzionalità”Deep Think”recentemente presentate da Google, che richiedono che un agente pianifichi azioni in più fasi e si adatti al feedback ambientale in tempo reale.
Guerre di mercificazione: Unitree, Tesla e la corsa alla scala
Saunders si unisce mentre il mercato dell’hardware per la robotica subisce un violento spostamento verso la mercificazione, guidato dai produttori cinesi. Unitree è emerso come il più grande fornitore di sistemi a quattro zampe, fornendo circa 10 volte il numero di unità quadrupedi nel periodo 2023-2024 abbassando aggressivamente i prezzi.
Inondando il settore con telai a prezzi accessibili, questo volume conferma La scommessa di Google incentrata sul software: man mano che i corpi dei robot diventano economici e abbondanti, l’elemento di differenziazione diventa l’intelligenza che li guida. Tuttavia, Google deve affrontare la forte concorrenza di rivali integrati verticalmente come Tesla (Optimus) e Figure AI, che controllano sia il cervello che il corpo per ottimizzare le prestazioni.
Mentre concorrenti come Tesla perseguono un ecosistema chiuso, Meta contesta anche il livello orizzontale. Quest’estate l’azienda ha rilasciato V-JEPA 2, un”modello mondiale”open source progettato per insegnare ai robot il buon senso fisico attraverso l’osservazione video.
Gli ingegneri stanno correndo per risolvere il collo di bottiglia dei dati; come osserva il ricercatore NVIDIA Jim Fan, la simulazione è fondamentale perché”un’ora di calcolo dà a un robot 10 anni di esperienza di addestramento. È così che Neo è stato in grado di imparare le arti marziali in un batter d’occhio nel Matrix Dojo.”
Le battaglie di reclutamento si sono spostate dall’assunzione di ricercatori di ML puri alla caccia di leader in grado di spedire prodotti incorporati, come evidenziato dalla guerra dei talenti all’inizio di quest’anno.
Fondamentalmente, la strategia di DeepMind si basa su la convinzione che il “cervello” sarà alla fine il componente più prezioso del robot. Assicurandosi un leader che comprende il”corpo”meglio di quasi chiunque altro, Google sta proteggendo le sue scommesse, garantendo che il suo software non sia limitato da hardware che non capisce.