O Google Deepmind apresentou um novo modelo de IA que permite que os robôs operem com total autonomia, sem serem presos na nuvem. O novo sistema, chamado Gemini Robotics no dispositivo, é inteiramente no hardware local de um robô, um desenvolvimento crítico que promete tornar os sistemas robóticos mais rápidos, confiáveis ​​e capazes de funcionar em ambientes com conectividade intermitente ou sem Internet. Isso marca um passo significativo para tornar os robôs de uso geral práticos para aplicações do mundo real. É o primeiro dos modelos de ação de ação na linguagem da empresa (VLA) a serem disponibilizados para ajuste fino, permitindo que os desenvolvedores o adaptem para novas tarefas altamente duração, com apenas 50 a 100 demonstrações. Essa capacidade de generalizar a partir de uma pequena quantidade de novos dados pode acelerar drasticamente a implantação de robôs em ambientes complexos.

google’s mover é uma grande entrada em um shaping de um pouco de fios. O processamento no dispositivo é crucial para a robótica em tempo real, pois elimina a latência da rede inerente à computação em nuvem. Para os robôs que interagem com o mundo físico, um atraso de fração de segundo na tomada de decisões pode ser a diferença entre sucesso e fracasso. Isso torna a IA local essencial para aplicações em que as respostas instantâneas não são negociáveis. Esse desafio levou a diferentes apostas estratégicas em toda a indústria. A Figura AI, por exemplo, introduziu seu modelo de hélice hélice otimizado da robótica em fevereiro, que, como o novo sistema do Google, funciona inteiramente em GPUs incorporadas. A própria estratégia do Google evoluiu; Sua principal plataforma de robótica Gemini, introduzida em março, usa uma abordagem híbrida. O novo modelo no Device fornece uma solução dedicada para cenários em que a autonomia é fundamental. Target=”_ Blank”> triplicou em 2024 para US $ 1,2 bilhão , sinalizando intensa concorrência. De acordo com a federação internacional de robótica , o mercado global de robôs industriais já atingiu um altíssimo de US $ 16.5 Billion, com um robô de US $ 16.5, com um robô de US $ 16.5, com um robô de US $ 16.5, com um robô de US $ 16.5, com um robô de US $ 16.5, com um robô de US $ 16.5, com um robô de US $ 16.5, com um robô de US $ 16.5, com um robô de US $ 16.5, com um robô mais tarde, com um robô mais importante, de US $ 16.5, com um robô mais importante de US $ 16.5, com um robô mais importante de US $ 16.5. do que programação rígida. Enquanto o Google e a Figura AI campeão no dispositivo, a Meta lançou recentemente o V-Jepa 2, um”Modelo Mundial”de código aberto que aprende o senso comum físico com o vídeo. Esses modelos permitem que uma IA execute simulações internas para”pensar”antes de agir, deixando as máquinas”planejam movimentos e interações em espaços simulados”antes de tentá-los no mundo físico. Esse método, focado na construção de uma compreensão interna da física, oferece outro caminho para criar robôs que podem navegar em ambientes humanos imprevisíveis. Isso é alcançado através de uma técnica conhecida como aprendizado de poucos tiros (FSL), que permite que um modelo aprenda com um número muito pequeno de exemplos. Essa abordagem procura imitando a habilidade humana Para entender novos conceitos rapidamente, um forte contraste para os modelos tradicionais de IA que geralmente requerem milhões de pontos de dados. Para robótica, onde a coleta de conjuntos de dados vastos e rotulados para todas as tarefas possíveis é impraticável, o FSL é um divisor de águas. A empresa forneceu evidências concretas dessa adaptabilidade, observando que, embora o modelo tenha sido treinado inicialmente para robôs Aloha, ela foi adaptada com sucesso a um robô Bi-Arma Franka FR3 e ao robô Apollo Humanóide por Apptronik.

Este recurso é o que permite o potencial mais amplo do sistema. Como Carolina Parada, chefe de robótica do Google Deepmind, explicada em relatando a tecnologia de ars.”Está desenhando do entendimento mundial multimodal de Gêmeos para realizar uma tarefa completamente nova… o que isso permite é da mesma maneira que os gêmeos podem produzir texto, escrever poesia, apenas resumir um artigo, você também pode escrever código e também pode gerar imagens. O programa limitado destaca um pivô estratégico mais amplo em DeepMind. O laboratório, uma vez um bastião da publicação científica aberta, agora libera mais seletivamente sua tecnologia principal para proteger a vantagem competitiva do Google. Essa mudança causou fricção internamente, com um pesquisador

Essa postura proprietária contrasta fortemente com o papel da Meta na IA de código aberto com seus modelos de lhama, uma estratégia projetada para acelerar a inovação comunitária. Enquanto essa abertura é elogiada, o desempenho dos modelos abertos historicamente perdeu seus colegas de código fechado. Os melhores modelos de código aberto ficaram para trás por vários meses, embora essa lacuna esteja diminuindo. Essa diferença de desempenho ajuda a explicar por que uma empresa como o Google guardaria sua tecnologia mais avançada, mesmo que forneça ferramentas para os desenvolvedores desenvolverem. Ele aborda diretamente a necessidade crítica do setor de sistemas autônomos de baixa latência, apresentando avanços notáveis ​​no aprendizado rápido e humano. No entanto, o impacto final do modelo será moldado não apenas por suas proezas técnicas, mas também pela tensão estratégica entre o espírito colaborativo da pesquisa aberta e as realidades guardadas da competição comercial.