O

Meta lançou o V-Jepa 2, um sistema avançado de IA que aprende com o vídeo, em um impulso estratégico para dar aos robôs uma forma de senso comum físico. A empresa anunciou em 11 de junho que o”Modelo Mundial”de código aberto foi projetado para entender e prever interações do mundo real, um passo crítico para a construção de agentes inteligentes mais capazes e adaptativos. Ao construir uma simulação interna da realidade, esses modelos permitem que uma IA”pense”antes de agir, planejando tarefas complexas de uma maneira mais humana. Para a meta, o projeto é uma parte essencial de sua visão de longo prazo para inteligência avançada de máquinas, com aplicativos em potencial que variam de robótica industrial aos óculos de realidade aumentada que a empresa está desenvolvendo há muito tempo. Modelo Representa uma evolução significativa de seu antecessor V-Jepa. Embora a versão inicial tenha estabelecido o conceito central de aprender com o vídeo, este novo sistema de 1,2 bilhão de parâmetros é especificamente aprimorado para planejamento e controle práticos, com o objetivo de preencher a lacuna entre a inteligência digital e o mundo físico. src=”Dados: imagem/svg+xml; nitro-inempty-id=mty0mjo3ntg=-1; base64, phn2zyb2awv3qm94psiWidAgotyWidi5 Mcigd2lkdgg9ijk2mcigagvpz2h0psiyotaiihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymDawl3n2zyi+pc9zdmc+”>

O que são modelos mundiais?

No centro da estratégia da Meta é o conceito de um”modelo mundial”, um tipo de sistema de IA generativo que aprende representações internas de um ambiente, incluindo sua física e dinâmica espacial. Ao contrário de grandes modelos de linguagem que prevêem a próxima palavra em uma frase, os modelos mundiais tentam prever estados futuros do próprio mundo. Um modelo mundial observa seu ambiente e antecipa o que pode acontecer a seguir, uma tarefa muito mais complexa do que a previsão baseada em texto. Juan Bernabé-Moreno, diretor da IBM Research na Europa, explicou “Modelos mundiais permitem que as gêmeas planejem movimentos e interações em simulados em simulados, as espinhas simuladas, que são chamadas de gêmeas,“ Modelos do mundo. reduz dramaticamente, julgamentos e erros dispendiosos, mitigam os riscos de segurança e acelera o aprendizado de tarefas como montagem industrial, logística de armazém ou robótica orientada a serviços. Aprende

a inteligência do V-Jepa 2 é forjado em um processo de treinamento em dois estágios. Primeiro, cria um entendimento fundamental do mundo analisando um conjunto de dados enorme de mais de um milhão de horas de vídeo e um milhão de imagens. Essa eficiência permite que o modelo se concentre no aprendizado de conceitos de alto nível sobre interações e movimento de objetos.

O segundo estágio torna o modelo útil para a robótica. Aqui, ele é ajustado com dados condicionados à ação, usando apenas 62 horas de entradas de vídeo e controle do Droadaset Droid-Source . Isso ensina o modelo a conectar ações específicas aos seus resultados físicos, resultando em um sistema que, de acordo com a Meta, pode ser usado para”o planejamento de robôs zero para interagir com objetos desconhecidos em novos ambientes”.

No entanto, a Análise técnica dos primeiros modelos de videote de V-Jepa Mostarem que mais de confiança em que mais de cravadas se limitem a limitar sua capacidade de entender.

Um campo lotado de inteligência física

O anúncio da Meta não acontece no vácuo. O esforço para criar modelos fundamentais para a robótica é um campo de batalha importante para os principais laboratórios de tecnologia. Em março, o Google DeepMind apresentou seus modelos de robótica Gemini, que integram da mesma forma a visão, linguagem e ação para permitir que os robôs aprendam com o mínimo de treinamento.

o Também inclui players especializados, como a Figura AI, com seu modelo Helix, Magma AI da Microsoft e numerosos esforços da universidade.

Uma tecnologia complementar crítica é a simulação hiper-realista. Plataformas como o simulador de AI Genesis podem simular rapidamente ambientes físicos, essenciais para treinar esses modelos com segurança e eficiência. Isso destaca o foco em todo o setor em superar o gargalo de dados necessário para treinar IA para as variações quase infinitas do mundo físico. The model’s code is available on GitHub, with checkpoints Acessível no rosto de abraçar . Ao disponibilizar a tecnologia, a Meta espera promover uma comunidade que possa acelerar o progresso. No entanto, os desenvolvedores que procuram uma integração fácil podem enfrentar obstáculos, pois as discussões da comunidade no GitHub indicam que atualmente existe sem poço de usuário dedicado, de maneira usada . Teste rigorosamente quão bem a IA modela a razão sobre a física. Em seu anúncio, a Meta observou uma lacuna de desempenho significativa entre humanos e até modelos de topo nessas tarefas, destacando uma direção clara para a melhoria necessária. Fornecer uma medida transparente de quão perto o campo está de alcançar a verdadeira inteligência física. Embora o V-Jepa 2 seja uma etapa significativa, também ilumina o longo caminho para criar o tipo de inteligência de máquina avançada que pode navegar perfeitamente e interagir com nosso complexo mundo físico.

Categories: IT Info