Com o objetivo de replicar seu domínio de smartphones no mundo físico, o Google DeepMind recrutou Aaron Saunders, ex-CTO da Boston Dynamics, para liderar uma nova divisão de engenharia de hardware.

A contratação marca uma mudança decisiva em direção a uma estratégia”Android para robôs”, onde a IA multimodal da Gemini servirá como um sistema operacional universal para máquinas de terceiros.

Ao trazer o arquiteto por trás dos robôs Atlas e Spot, a DeepMind busca resolver problemas críticos. Gargalo “sim-to-real” que atualmente limita a IA incorporada, desafiando rivais verticalmente integrados como Tesla e Figure AI. a estratégia robótica da empresa como um jogo de ecossistema, espelhando o modelo que tornou o Android o sistema operacional móvel dominante no mundo. Em vez de construir robôs proprietários para usuários finais, o objetivo é criar uma “base Gemini” – uma camada de IA fundamental capaz de controlar diversas configurações de hardware “prontas para uso”.

Em uma entrevista com a WIRED no início desta semana, Hassabis descreveu a iniciativa como “um pouco como um jogo Android… Queremos construir um sistema de IA, uma base Gemini, que possa funcionar quase imediatamente, em qualquer configuração corporal”. Essa abordagem aproveita os recursos multimodais dos modelos Gemini, que processam visão, linguagem e ação (VLA) simultaneamente, e não em silos.

Como observou Carolina Parada, chefe de robótica, durante o lançamento do SDK de robótica Gemini em junho, o modelo representa um salto significativo porque “está desenhando da compreensão do mundo multimodal de Gemini… Você também pode escrever código e também gerar imagens. Ele também pode gerar ações de robôs.”

O foco estratégico agora está em um futuro onde o hardware se torna comoditizado e intercambiável, enquanto o valor é acumulado para a camada de inteligência-o”cérebro”. O recente lançamento do Gemini Robotics SDK e do modelo “Robotics-ER” da DeepMind (focado no raciocínio incorporado) serve como o kit de ferramentas do desenvolvedor para este ecossistema.

Ao dissociar a inteligência do chassi, o Google pretende evitar as armadilhas de capital intensivo da fabricação de hardware, garantindo ao mesmo tempo que seus modelos de IA se tornem o padrão da indústria. Isso reflete sua abordagem com o Android, onde o Google fornece a espinha dorsal do software para Samsung, Xiaomi e outros, sobrecarregando efetivamente todo o ecossistema sem construir todos os dispositivos.

O paradoxo do hardware: por que um gigante do software precisa de um construtor

Apesar da narrativa do “Android” centrada no software, o recrutamento de Aaron Saunders – um veterano de 23 anos da Boston Dynamics – sinaliza uma nuance crítica na abordagem do Google.

Saunders, que atuou como CTO durante a comercialização do Spot e o desenvolvimento do robô acrobático Atlas, traz profundo conhecimento das realidades mecânicas que os modelos de software puro muitas vezes ignoram.

[conteúdo incorporado]

Nomeado vice-presidente de engenharia de hardware, sua função sugere que o Google está adotando uma “estratégia Pixel”: construir hardware de referência para validar e ultrapassar os limites de seu próprio software.

Recrutar um construtor aborda o persistente “sim-to-real” lacuna, onde agentes de IA treinados em simulações digitais perfeitas – como aquelas detalhadas em nossa cobertura da introdução da Gemini Robotics – falham ao encontrar atrito, ruído de sensor e imprevisibilidade física.

Hassabis prevê que “a robótica alimentada por IA terá seu momento de inovação nos próximos dois anos, se eu fosse prever”, um cronograma que requer resolução imediata desses problemas de aterramento físico.

A experiência de Saunders com atuação hidráulica e elétrica oferece um contrapeso para A cultura de pesquisa intensa da DeepMind, potencialmente acelerando a implantação do raciocínio “Deep Think” em agentes físicos.

O sucesso depende da suposição de que os modelos de software não podem realmente amadurecer sem um ciclo de feedback de hardware avançado. Assim como o telefone Pixel demonstra todos os recursos do Android, um robô de referência projetado pela DeepMind poderia mostrar o raciocínio em tempo real do Gemini 3 Pro em cenários do mundo real.

A integração de sensores e os circuitos de controle do atuador provavelmente formarão o foco principal da divisão, permitindo que a Gemini “sinta” o mundo, e não apenas o veja. Essa base física é essencial para os recursos de “pensamento profundo” revelados recentemente pelo Google, que exigem que um agente planeje ações em várias etapas e se ajuste ao feedback ambiental em tempo real.

Guerras de comoditização: Unitree, Tesla e a corrida pela escala

Saunders se junta à medida que o mercado de hardware robótico passa por uma mudança violenta em direção à comoditização, liderada por fabricantes chineses. A Unitree emergiu como a maior fornecedora de sistemas quadrúpedes, entregando aproximadamente 10x o número de unidades quadrúpedes no período 2023-2024 ao reduzir agressivamente os preços.

Inundando o setor com chassis acessíveis, este volume valida A primeira aposta do Google em software: à medida que os corpos dos robôs se tornam baratos e abundantes, o diferencial passa a ser a inteligência que os impulsiona. No entanto, o Google enfrenta forte concorrência de rivais verticalmente integrados como a Tesla (Optimus) e a Figure AI, que controlam o cérebro e o corpo para otimizar o desempenho.

Enquanto concorrentes como a Tesla perseguem um ecossistema fechado, a Meta também contesta a camada horizontal. A empresa lançou neste verão o V-JEPA 2, um “modelo mundial” de código aberto projetado para ensinar aos robôs o bom senso físico por meio da observação de vídeo.

Os engenheiros estão correndo para resolver o gargalo de dados; como observa o pesquisador da NVIDIA Jim Fan, a simulação é fundamental porque”uma hora de tempo de computação dá a um robô 10 anos de experiência de treinamento. Foi assim que Neo foi capaz de aprender artes marciais em um piscar de olhos no Matrix Dojo.”O “cérebro” será, em última análise, o componente mais valioso do robô. Ao garantir um líder que entende o “corpo” melhor do que qualquer outra pessoa, o Google está protegendo suas apostas, garantindo que seu software não seja limitado por hardware que ele não entende.

Categories: IT Info