O Google DeepMind iniciou uma nova iniciativa para criar sistemas avançados de inteligência artificial (IA) capazes de simular ambientes físicos e virtuais.
Tim Brooks, ex-pesquisador da OpenAI, agora lidera o esforço, que se concentra em “modelos mundiais” – sistemas de IA projetados para prever e interagir com a dinâmica do mundo real. Em uma postagem no X, Brooks declarou: “A DeepMind tem planos ambiciosos para criar modelos generativos massivos que simulem o mundo”.
Este projeto está intimamente ligado a A estratégia mais ampla do Google para promover a inteligência artificial geral (AGI). Os modelos mundiais são vistos como um passo fundamental para alcançar a AGI, uma forma de IA capaz de realizar qualquer tarefa intelectual que um ser humano possa realizar.
A nova equipe colaborará com projetos DeepMind existentes, incluindo a IA multimodal Gemini model, a plataforma de geração de vídeo Veo, e Genie, um gerador de ambiente para simulações 3D interativas.
A DeepMind tem planos ambiciosos para criar modelos generativos massivos que simulem o mundo. Estou contratando para uma nova equipe com essa missão. Venha construir conosco!https://t.co/pqvALtAvLs https://t.co/vtwgeXl9Dl
— Tim Brooks (@_tim_brooks) 6 de janeiro de 2025
AI World Modelinging
Os modelos mundiais representam um afastamento significativo dos sistemas tradicionais de IA, que reagem principalmente às entradas de dados. Em vez disso, esses modelos simulam ambientes complexos analisando dados multimodais, como texto, imagens e vídeos. Essa capacidade preditiva permite aplicações em vários campos, desde treinamento em robótica até jogos interativos.
Uma descrição do trabalho para a nova equipe destaca os objetivos mais amplos: “Acreditamos que o dimensionamento do pré-treinamento em vídeo e dados multimodais está no caminho crítico para a inteligência artificial geral. Os modelos mundiais potencializarão vários domínios, como raciocínio visual e simulação, planejamento para agentes incorporados e entretenimento interativo em tempo real.”
Ao simular a dinâmica do mundo real, os modelos mundiais fornecem uma área restrita virtual para testes e aprendendo, melhorando a capacidade da IA de se adaptar e responder em cenários do mundo real.
O projeto Genie da DeepMind oferece um vislumbre das possibilidades. Lançado em dezembro, o Genie 2 pode gerar mundos 3D jogáveis com base no usuário. As demonstrações incluíram uma simulação de expedição à vela e um faroeste com tema cyberpunk, mostrando a versatilidade da plataforma na criação de ambientes interativos.
Demonstração interativa de simulação de IA quadro a quadro criada com o Google Genie 2 (Fonte: Google)
O trabalho em modelos mundiais é inerentemente complexo, exigindo infraestrutura de ponta e vastos recursos computacionais. A oferta de trabalho da DeepMind para uma função de Engenheiro de Pesquisa na modelagem mundial descreve os desafios técnicos envolvidos. As responsabilidades incluem:
Treinar transformadores multimodais de grande escala capazes de analisar diversos tipos de dados. Construir infraestrutura para pipelines de dados de vídeo, garantindo curadoria e anotação eficientes. Otimização de sistemas de inferência para aplicações em tempo real, permitindo interatividade contínua. Desenvolvimento de métricas de avaliação quantitativa para medir precisão física e inteligência. Exploração de transformadores de contexto ultralongo, que permitem à IA analisar sequências estendidas de dados.
A ênfase na expansão reflete o compromisso de tornar esses sistemas robustos e eficientes. A filosofia da DeepMind, resumida como as principais responsabilidades na descrição do trabalho, ressalta esta abordagem:
“Implementar infraestrutura central e conduzir pesquisas para construir modelos generativos do mundo físico. Resolver problemas essenciais para treinar simuladores mundiais em grande escala, desenvolver métricas e leis de escala para inteligência física, selecionar e anotar dados de treinamento, permitir a geração interativa em tempo real e estudar a integração de modelos mundiais com modelos de linguagem multimodal. Abrace a amarga lição e busque métodos simples que sejam escaláveis, com ênfase em sistemas e infraestrutura fortes.”
Aplicações e Implicações
Os modelos mundiais têm diversas aplicações em todo o mundo. Na robótica, eles permitem a criação de ambientes virtuais onde as máquinas podem aprender a navegar e manipular objetos. Isso reduz o tempo e o custo dos testes físicos
Genesis, uma plataforma de simulação física de código aberto. Universidade Carnegie Mellon e pesquisadores da indústria privada, mostra como os sistemas de IA podem ser treinados para física 3D em um ambiente totalmente virtual com muito mais rapidez do que no mundo real.
Nos jogos, os modelos mundiais criam experiências imersivas com ambientes dinâmicos e responsivos. cuidados de saúde, onde as simulações podem ajudar no diagnóstico e no planeamento de tratamento personalizado.
Apesar da sua promessa, estes avanços apresentam desafios éticos, especialmente no que diz respeito ao deslocamento de trabalhadores. A Animation Guild estima que mais de 100.000 empregos nos EUA em cinema, televisão e animação poderão ser afetados pelas tecnologias de IA até 2026.
Também surgem questões legais, já que alguns modelos mundiais dependem de imagens de videogame não licenciadas para treinamento. Embora o Google afirme que suas práticas estão em conformidade com os termos de serviço do YouTube, ele não divulgou fontes de dados específicas.
Competição no espaço de IA
Posições de iniciativa da DeepMind Google em uma corrida competitiva com outros grandes players. A nova plataforma Cosmos da Nvidia concentra-se em IA física e robótica, enquanto o World Labs de Fei-Fei Li desenvolve modelos mundiais em grande escala com inteligência espacial para diversas aplicações. Startups como Odyssey e Decart também estão fazendo avança, contribuindo para o campo crescente de simulações mundiais de IA.
O acesso da DeepMind ao Gemini AI, Veo e Genie oferece uma vantagem única. Ao integrar estes sistemas, a equipa pretende criar uma IA que não só preveja resultados, mas também se adapte a cenários em mudança em tempo real. Essa capacidade pode ser crítica para alcançar a AGI, onde a adaptabilidade e a generalização são fundamentais.
Visão da DeepMind para AGI
Embora a inteligência artificial geral permaneça distante, mas alcançável objectivo, os modelos mundiais são um passo crucial neste caminho. Ao simular ambientes físicos e virtuais, esses modelos fornecem uma base para sistemas de IA que podem raciocinar, planejar e interagir como humanos.
A descrição do cargo de Engenheiro de Pesquisa captura a essência da visão da DeepMind: “Os modelos mundiais fortalecerão numerosos domínios, como raciocínio visual e simulação, planejamento para agentes incorporados e entretenimento interativo em tempo real.”