O Google Deepmind apresentou um novo modelo de IA que permite que os robôs operem com total autonomia, sem serem presos na nuvem. O novo sistema, chamado Gemini Robotics no dispositivo, é inteiramente no hardware local de um robô, um desenvolvimento crítico que promete tornar os sistemas robóticos mais rápidos, confiáveis e capazes de funcionar em ambientes com conectividade intermitente ou sem Internet. Isso marca um passo significativo para tornar os robôs de uso geral práticos para aplicações do mundo real. É o primeiro dos modelos de ação de ação na linguagem da empresa (VLA) a serem disponibilizados para ajuste fino, permitindo que os desenvolvedores o adaptem para novas tarefas altamente duração, com apenas 50 a 100 demonstrações. Essa capacidade de generalizar a partir de uma pequena quantidade de novos dados pode acelerar drasticamente a implantação de robôs em ambientes complexos.
google’s mover é uma grande entrada em um shaping de um pouco de fios. O processamento no dispositivo é crucial para a robótica em tempo real, pois elimina a latência da rede inerente à computação em nuvem. Para os robôs que interagem com o mundo físico, um atraso de fração de segundo na tomada de decisões pode ser a diferença entre sucesso e fracasso. Isso torna a IA local essencial para aplicações em que as respostas instantâneas não são negociáveis. Esse desafio levou a diferentes apostas estratégicas em toda a indústria. A Figura AI, por exemplo, introduziu seu modelo de hélice hélice otimizado da robótica em fevereiro, que, como o novo sistema do Google, funciona inteiramente em GPUs incorporadas. A própria estratégia do Google evoluiu; Sua principal plataforma de robótica Gemini, introduzida em março, usa uma abordagem híbrida. O novo modelo no Device fornece uma solução dedicada para cenários em que a autonomia é fundamental. Target=”_ Blank”> triplicou em 2024 para US $ 1,2 bilhão
Este recurso é o que permite o potencial mais amplo do sistema. Como Carolina Parada, chefe de robótica do Google Deepmind, explicada em relatando a tecnologia de ars.”Está desenhando do entendimento mundial multimodal de Gêmeos para realizar uma tarefa completamente nova… o que isso permite é da mesma maneira que os gêmeos podem produzir texto, escrever poesia, apenas resumir um artigo, você também pode escrever código e também pode gerar imagens. O programa limitado destaca um pivô estratégico mais amplo em DeepMind. O laboratório, uma vez um bastião da publicação científica aberta, agora libera mais seletivamente sua tecnologia principal para proteger a vantagem competitiva do Google. Essa mudança causou fricção internamente, com um pesquisador
Essa postura proprietária contrasta fortemente com o papel da Meta na IA de código aberto com seus modelos de lhama, uma estratégia projetada para acelerar a inovação comunitária. Enquanto essa abertura é elogiada, o desempenho dos modelos abertos historicamente perdeu seus colegas de código fechado. Os melhores modelos de código aberto ficaram para trás por vários meses, embora essa lacuna esteja diminuindo. Essa diferença de desempenho ajuda a explicar por que uma empresa como o Google guardaria sua tecnologia mais avançada, mesmo que forneça ferramentas para os desenvolvedores desenvolverem. Ele aborda diretamente a necessidade crítica do setor de sistemas autônomos de baixa latência, apresentando avanços notáveis no aprendizado rápido e humano. No entanto, o impacto final do modelo será moldado não apenas por suas proezas técnicas, mas também pela tensão estratégica entre o espírito colaborativo da pesquisa aberta e as realidades guardadas da competição comercial.