O Google DeepMind revelou a Genie 3, um novo modelo de IA que cria mundos 3D jogáveis a partir de comandos simples de texto. Anunciada na terça-feira, o sistema cria esses ambientes interativos em tempo real, um grande passo a partir de sua versão anterior.
Esse movimento sinaliza uma aceleração estratégica na corrida para construir modelos mundiais fundamentais. A DeepMind vê essa tecnologia como uma parte central de seu caminho para a inteligência geral artificial (AGI). Ao testar agentes em inúmeros novos mundos, o laboratório pretende construir a IA que possa lidar com tarefas complexas e do mundo real.
O anúncio segue a formação de uma equipe de modelos mundiais especializada em DeepMind no início deste ano. Ele ressalta um compromisso claro de criar IA que entenda e simula a realidade física, com futuras aplicações em jogos, design e robótica. Minutos: Um salto na geração mundial em tempo real
Genie 3 representa um salto técnico significativo sobre seu antecessor, Genie 2, passando de uma prova de conceito promissor para uma plataforma muito mais capaz. O novo modelo gera mundos interativos na 720p Resolution, uma grande atualização da saída de 360p de seu precursor. Ele também opera com um fluido 24 quadros por segundo, tornando a experiência em tempo real mais suave e mais imersiva.
Talvez o avanço mais crítico seja o tempo de interação prolongada. While Genie 2 simulations often began to show visual artifacts and degrade after just 10 to 20 seconds, Genie 3 can sustain a coherent and visually consistent world for “several minutes,”according to DeepMind. Essa longevidade é vital para permitir qualquer interação significativa ou treinamento de agentes nos ambientes gerados. Esse recurso permite que um usuário altere dinamicamente a simulação com novos comandos de texto após a criação do mundo inicial. Por exemplo, um usuário pode estar explorando um ambiente gerado e depois emitir um comando para introduzir um rebanho de veados ou alterar de repente as condições climáticas, que o modelo será executado em tempo real. Isso transforma a simulação de um espaço estático para uma enete e editável, uma etapa crucial para criar cenários mais complexos e úteis. O DeepMind chama isso de”capacidade emergente”, onde o modelo se lembra de elementos fora da tela por até um minuto. Isso impede os artefatos visuais chocantes que atormentam modelos anteriores como o Oasis de Decart , que frequentemente a cena de ladeares de cena durante a cena durante as ladeares durante a cena durante as ladeares da cena durante a cena durante a cena dos ladeares de cenas de Decart , que costumam ter a cena de ladeares de cena durante a cena durante a cena dos ladeares de cenas. é central para o seu sucesso. Shlomi Fruchter, diretor de pesquisa do Google Deepmind, o descreveu como o”primeiro modelo de mundo geral interativo em tempo real”. Ele explicou ainda a mecânica, afirmando:”O modelo é regressivo automático, o que significa que gera um quadro de cada vez. Ele precisa olhar para o que foi gerado antes para decidir o que vai acontecer a seguir”. Esse processo seqüencial baseado em memória é o que permite que a Genie 3 construa uma compreensão intuitiva e consistente da física sem depender de um motor codificado. pesquisar. O laboratório posiciona o modelo como uma ferramenta crítica para o treinamento de agentes incorporados de IA-sistemas como robôs ou avatares virtuais projetados para operar em espaços físicos. O objetivo final é acelerar o progresso em direção à inteligência geral artificial (AGI), resolvendo um de seus principais desafios: ensinando uma IA a navegar com segurança e eficácia, ambientes imprevisíveis. Os agentes de treinamento no mundo real são lentos, caros e potencialmente perigosos. Modelos mundiais como a Genie 3 oferecem uma solução, fornecendo uma caixa de areia segura, escalável e infinitamente variável para o aprendizado. Jack Parker-Holder, um cientista pesquisador da equipe de abertura de abertura da DeepMind, enfatizou essa estratégia, afirmando: “Achamos que os modelos do mundo são essenciais no caminho para a AGI, especificamente para agentes incorporados, onde simulando o mundo dos cenários do mundo real. Por exemplo, como observado pelo diretor de pesquisa da DeepMind, ele pode ser usado para treinar um carro autônomo sobre como reagir a um pedestre que aparece de repente, sem nunca precisar arriscar uma colisão do mundo real. Essa capacidade de simular contrafactuais permite que um agente aprenda com a experiência, se adapte a novos desafios e desenvolva uma compreensão mais robusta de causa e efeito. Target=”_ Blank”> SIMA Agent . Nas demonstrações, o agente recebeu objetivos distintos e teve que alcançá-los enviando comandos de navegação para o Genie 3. O modelo mundial, sem saber do objetivo do agente, simplesmente simularia as consequências físicas dessas ações, forçando Sima a planejar e executar uma sequência mais longa de ações para ter sucesso. Isso se torna um campo de treinamento ideal, onde os agentes são empurrados para seus limites, forçados a lutar e melhorar por meio de tentativas e erros de uma maneira que espelha como os humanos aprendem. A crença subjacente compartilhada em toda a indústria é que uma IA deve primeiro aprender a”pensar”e planejar dentro de uma simulação interna precisa da realidade antes que se possa confiar em agir de maneira confiável no mundo físico. Ele sugeriu que a indústria ainda não teve seu”MOVIMENTO 37 MOMENTO PARA AGENTES EMBALIADOS”, onde eles podem”realmente tomar novas ações no mundo real”. Isso se refere ao famoso movimento não convencional e brilhante do Alphago de DeepMind, que sinalizou um novo paradigma de inteligência de máquinas. Para a IA incorporada, esse momento continua sendo o melhor, ainda a ser a serem alcobrado, que os modelos mundiais como o Genie 3 são projetados para ativar um dia. O modelo está sendo lançado como uma”prévia de pesquisa limitada”para um pequeno grupo de acadêmicos e criadores, não o público em geral. Essa abordagem cautelosa reflete o estágio nascente da tecnologia. Além disso, o modelo luta com a renderização com precisão do texto e ainda não pode simular interações complexas entre vários agentes independentes, conforme detalhado em sua documentação.
A duração das simulações, embora melhorada, ainda está longe das horas necessárias para o treinamento abrangente do agente. Fruchter reconheceu o caminho a seguir, observando:”Há muitas coisas que precisam acontecer antes que um modelo possa ser implantado no mundo real, mas o vemos como uma maneira de treinar modelos com mais eficiência e aumentar sua confiabilidade”. Isso destaca a função atual do modelo como uma ferramenta de pesquisa e não como um produto implantável. Ele ressalta os imensos desafios técnicos que permanecem na construção de IA que podem realmente espelhar a complexidade do nosso mundo.