Google DeepMind reveló el jueves SIMA 2, un nuevo agente de inteligencia artificial que utiliza el modelo Gemini para aprender y actuar dentro de videojuegos 3D. A diferencia de su predecesor, SIMA 2 puede pensar en objetivos de alto nivel, hablar con los usuarios y aprender nuevas habilidades por sí mismo.
Fue entrenado en juegos populares como Goat Simulator 3 e incluso puede jugar en mundos que nunca antes había visto. El proyecto de DeepMind es un paso clave hacia su objetivo de desarrollar una IA general. El laboratorio espera que las habilidades aprendidas en los juegos algún día impulsen robots útiles en el mundo real.
De seguidor de instrucciones a compañero de razonamiento
Al incorporar un modelo Gemini en su núcleo, SIMA 2 va más allá de simples comandos. Su predecesor, el SIMA original presentado en marzo de 2024, fue un primer paso crucial: aprender a realizar más de 600 habilidades de seguimiento de idiomas como “subir escaleras” a través de varios mundos virtuales.
Ese agente operaba mirando la pantalla y usando un teclado y un mouse virtuales, tal como lo haría un jugador humano. SIMA 2 se basa en esta base, pero agrega una capa crítica de cognición, evolucionando de una herramienta a un socio interactivo.
Ahora, el agente puede comprender el objetivo de alto nivel de un usuario y razonar sobre los pasos necesarios para lograrlo.
Esto transforma la interacción de dar comandos a colaborar con un compañero.
“Los juegos han sido una fuerza impulsora detrás de la investigación de agentes durante bastante tiempo”, Joe Marino, investigador científico de Google DeepMind, durante una conferencia de prensa.
La integración de Gemini permite a SIMA 2 describir sus intenciones y explicar sus acciones, haciendo que el proceso sea más transparente e interactivo para el usuario.
[contenido incrustado]
La capacitación implicó una combinación de videos de demostración humana y etiquetas generadas por Gemini. DeepMind se asoció con numerosos desarrolladores de juegos, incluidos Coffee Stain (Valheim, Satisfactory, Goat Simulator 3), Hello Games (No Man’s Sky) y Tuxedo Labs (Teardown), para crear un campo de entrenamiento diverso.
La exposición a diferentes géneros y mecánicas de juego es clave para desarrollar un agente generalista que no esté atado a las reglas de un único entorno.
Un ciclo virtuoso: superación personal en mundos generados
Uno de los avances más significativos de SIMA 2 es su capacidad de mejorar por sí solo. Después de una fase inicial de aprendizaje a partir de demostraciones humanas, el agente puede entrar en un ciclo de superación personal.
Practica en nuevos juegos a través del juego autodirigido, usando prueba y error y recibiendo retroalimentación del modelo Gemini para perfeccionar sus habilidades.
Este proceso le permite dominar nuevas tareas sin requerir datos adicionales generados por humanos, un hito importante hacia el aprendizaje escalable.
Para superar los límites de esta capacidad, DeepMind combinó SIMA 2 con otra. de sus ambiciosos proyectos: Genie 3.
Genie 3 es un modelo mundial que puede generar nuevos entornos 3D jugables a partir de un simple mensaje de texto. Su arquitectura está diseñada para brindar coherencia y, como explicó el director de investigación Shlomi Fruchter,”autorregresiva, lo que significa que genera un cuadro a la vez. Tiene que mirar hacia atrás, a lo que se generó antes para decidir qué sucederá a continuación”.
La generación secuencial es vital para crear mundos estables donde un agente pueda aprender.
Cuando SIMA 2 se colocó en estos mundos completamente novedosos, generados por IA, demostró una capacidad notable para adaptarse, orientar y ejecuta las instrucciones del usuario.
Esta sinergia crea un poderoso dojo de entrenamiento. Genie 3 puede generar una variedad casi infinita de escenarios, proporcionando un plan de estudios interminable para que SIMA 2 aprenda.
La estrategia de DeepMind para construir una IA más robusta y adaptable se basa en este enfoque.
“Creemos que los modelos mundiales son clave en el camino hacia AGI, específicamente para agentes encarnados, donde simular escenarios del mundo real es particularmente desafiante”, explicó Jack Parker-Holder, un investigador científico del equipo.
Simular innumerables situaciones es una forma más segura y eficiente de enseñar a una IA sobre las complejidades de la interacción.
Más allá del juego: el camino hacia la AGI incorporada y sus obstáculos
Si bien el contexto inmediato son los videojuegos, la ambición final de DeepMind radica en el mundo físico. Las habilidades que SIMA 2 está aprendiendo (navegación, uso de herramientas, planificación y colaboración) son bloques de construcción fundamentales para la inteligencia incorporada.
La compañía ve esta investigación como un camino directo hacia la creación de robots y asistentes de IA capaces que puedan operar de manera segura y efectiva en entornos humanos.
“SIMA 2 confirma que una IA entrenada para una competencia amplia… puede unificar con éxito las capacidades de muchos sistemas especializados en un agente generalista coherente”, afirmó el equipo SIMA en su anuncio, enmarcando el proyecto como una unificación de sistemas especializados en un agente único y coherente.
Sin embargo, el camino de los mundos virtuales a la realidad está plagado de desafíos. Los expertos en el campo, si bien reconocen el logro técnico, recomiendan cautela sobre la aplicabilidad directa de estas habilidades.
Julian Togelius, un investigador de inteligencia artificial de la Universidad de Nueva York, enfatizó la dificultad del enfoque y señaló que”jugar en tiempo real solo con información visual es el’modo difícil'”. El agente debe interpretar píxeles sin procesar sin ningún dato subyacente del juego, una tarea computacionalmente intensiva y propensa a errores.
Además, existen dudas sobre qué tan bien se transferirán estos comportamientos aprendidos a la robótica.