O Google DeepMind revelou na quinta-feira o SIMA 2, um novo agente de IA que usa o modelo Gemini para aprender e agir dentro de videogames 3D. Ao contrário de seu antecessor, o SIMA 2 pode pensar em objetivos de alto nível, conversar com os usuários e aprender novas habilidades.

Ele foi treinado em jogos populares como o Goat Simulator 3 e pode até jogar em mundos que nunca viu antes. O projeto da DeepMind é um passo fundamental em direção ao seu objetivo de construir IA geral. O laboratório espera que as habilidades aprendidas em jogos um dia capacitem robôs úteis no mundo real.

De seguidor de instruções a companheiro de raciocínio

Ao incorporar um modelo Gemini em seu núcleo, o SIMA 2 vai além de comandos simples. Seu antecessor, o SIMA original lançado em março de 2024, foi um primeiro passo crucial, aprendendo a executar mais de 600 habilidades de acompanhamento de idiomas, como”subir a escada”em vários mundos virtuais.

Esse agente é operado por observando a tela e usando um teclado e mouse virtuais, assim como um jogador humano faria. O SIMA 2 se baseia nessa base, mas adiciona uma camada crítica de cognição, evoluindo de uma ferramenta para um parceiro interativo.

Agora, o agente pode entender o objetivo de alto nível de um usuário e raciocinar sobre as etapas necessárias para alcançá-lo.

Isso transforma a interação, desde dar comandos até colaborar com um companheiro.

“Os jogos têm sido uma força motriz por trás da pesquisa de agentes há um bom tempo”, Joe Marino, cientista pesquisador do Google DeepMind, durante uma reunião coletiva de imprensa.

A integração do Gemini permite que o SIMA 2 descreva suas intenções e explique suas ações, tornando o processo mais transparente e interativo para o usuário.

[conteúdo incorporado]

O treinamento envolveu uma mistura de vídeos de demonstração humanos e rótulos gerados pelo Gemini. A DeepMind fez parceria com vários desenvolvedores de jogos, incluindo Coffee Stain (Valheim, Satisfactory, Goat Simulator 3), Hello Games (No Man’s Sky) e Tuxedo Labs (Teardown), para construir um campo de treinamento diversificado.

A exposição a diferentes gêneros e mecânicas de jogo é fundamental para desenvolver um agente generalista não vinculado às regras de um único ambiente.

Um ciclo virtuoso: autoaperfeiçoamento em mundos gerados

Um dos avanços mais significativos do SIMA 2 é sua capacidade de melhorar por conta própria. Após uma fase inicial de aprendizagem a partir de demonstrações humanas, o agente pode entrar em um ciclo de autoaperfeiçoamento.

Ele pratica novos jogos por meio de jogo autodirigido, usando tentativa e erro e recebendo feedback do modelo Gemini para refinar suas habilidades.

Esse processo permite que ele domine novas tarefas sem exigir dados adicionais gerados por humanos, um marco importante em direção ao aprendizado escalonável.

Para ultrapassar os limites dessa capacidade, a DeepMind combinou o SIMA 2 com o SIMA 2. outro de seus ambiciosos projetos: Genie 3.

Genie 3 é um modelo de mundo que pode gerar novos ambientes 3D jogáveis a partir de um simples prompt de texto. Sua arquitetura foi projetada para ser consistente e, como explicou o diretor de pesquisa Shlomi Fruchter,”auto-regressiva, o que significa que gera um quadro de cada vez. Ele precisa olhar para trás, para o que foi gerado antes, para decidir o que vai acontecer a seguir.”e executar instruções do usuário.

Esta sinergia cria um poderoso dojo de treinamento. O Genie 3 pode gerar uma variedade quase infinita de cenários, fornecendo um currículo infinito para o SIMA 2 aprender.

A estratégia da DeepMind para construir uma IA mais robusta e adaptável depende dessa abordagem.

“Acreditamos que os modelos mundiais são fundamentais no caminho para AGI, especificamente para agentes incorporados, onde simular cenários do mundo real é particularmente desafiador”, explicou Jack Parker-Holder, um cientista pesquisador da equipe.

Simular inúmeras situações é uma maneira mais segura e eficiente de ensinar uma IA sobre complexidades de interação.

Além do jogo: o caminho para a AGI incorporada e seus obstáculos

Embora o contexto imediato sejam os videogames, a ambição final da DeepMind está no mundo físico. As habilidades que o SIMA 2 está aprendendo-navegação, uso de ferramentas, planejamento e colaboração-são blocos de construção fundamentais para a inteligência incorporada.

A empresa vê esta pesquisa como um caminho direto para a criação de assistentes e robôs de IA capazes que possam operar com segurança e eficácia em ambientes humanos.

“O SIMA 2 confirma que uma IA treinada para ampla competência… pode unificar com sucesso as capacidades de muitos sistemas especializados em um agente coerente e generalista”, afirmou a equipe SIMA em seu anúncio, enquadrando o projeto como uma unificação de sistemas especializados em um agente único e coerente.

No entanto, o caminho dos mundos virtuais para a realidade está repleto de desafios. Especialistas na área, embora reconheçam a conquista técnica, recomendam cautela sobre a aplicabilidade direta dessas habilidades.

Julian Togelius, pesquisador de IA da Universidade de Nova York, enfatizou a dificuldade da abordagem, observando que “jogar em tempo real apenas a partir de informações visuais é o ‘modo difícil’”. O agente deve interpretar pixels brutos sem quaisquer dados de jogo subjacentes, uma tarefa que exige muita computação e é propensa a erros.

Além disso, há dúvidas sobre até que ponto esses comportamentos aprendidos serão transferidos para a robótica.

Categories: IT Info