Google Deepmind ha revelado Genie 3, un nuevo modelo de IA que construye mundos 3D jugables a partir de comandos de texto simples. Anunciado el martes, el sistema crea estos entornos interactivos en tiempo real, un paso importante de su versión anterior.
Este movimiento indica una aceleración estratégica en la carrera para construir modelos mundiales fundamentales. DeepMind ve esta tecnología como una parte central de su camino hacia la inteligencia general artificial (AGI). Al probar agentes en innumerables nuevos mundos, el laboratorio tiene como objetivo construir una IA que pueda manejar tareas complejas del mundo real.
El anuncio sigue la formación de un equipo de modelos mundiales especializados en Deepmind a principios de este año. Subraya un compromiso claro para crear una IA que comprenda y simule la realidad física, con futuras aplicaciones en juegos, diseño y robótica.
Una innovación principal en esta versión es lo que el laboratorio llama”eventos mundiales rápidos”. Esta característica permite a un usuario alterar dinámicamente la simulación con nuevos comandos de texto después de que se haya creado el mundo inicial. Por ejemplo, un usuario podría estar explorando un entorno generado y luego emitir un comando para introducir una manada de ciervos o cambiar repentinamente las condiciones climáticas, que el modelo ejecutará en tiempo real.
Como explicaron los investigadores de DeepMind,”los eventos mundiales rápidos hacen posible cambiar el mundo generado, como alterar las condiciones climáticas o introducir nuevos objetos y caracteres, mejorar la experiencia de los controles de navegación”. Esto transforma la simulación de un espacio estático a uno receptivo y editable, un paso crucial para crear escenarios más complejos y útiles.
Subvención de estas mejoras es una capacidad mejorada para mantener la consistencia ambiental, un desafío notorio para los modelos mundiales generativos. DeepMind llama a esto una”capacidad emergente”, donde el modelo recuerda elementos fuera de la pantalla por hasta un minuto. Esto evita los artefactos visuales discordantes que modelos anteriores plagados como los modelos de Decart, que a menudo se pierde la rastro de la escena durante la interacción. Eso es fundamental para su éxito. Shlomi Fruchter, director de investigación de Google Deepmind, lo describió como el”primer modelo mundial de propósito general interactivo en tiempo real”.
Explicó más a fondo la mecánica, afirmando:”El modelo es automático, lo que significa que genera un cuadro a la vez. Tiene que mirar hacia atrás lo que se generó antes para decidir qué va a suceder después”. Este proceso secuencial basado en la memoria es lo que le permite a Genie 3 construir una comprensión intuitiva y consistente de la física sin confiar en un motor codificado.
El camino hacia la AGI: un campo de entrenamiento para el terreno de formación para Ai
mientras que la posibilidad de generar mundos de videojuegos de los videojuegos en la volante es más claro que es claro que el Genie 3 no es el propósito principal de Genie 3 no es consumidor, pero el enterador de los videojuegos, pero el enterador de los videojuegos, pero es el propósito principal de Genie 3. investigación. El laboratorio posiciona el modelo como una herramienta crítica para los agentes de IA incorporados de capacitación: los sistemas como robots o avatares virtuales diseñados para operar en espacios físicos.
El objetivo final es acelerar el progreso hacia la inteligencia general artificial (AGI) resolviendo uno de sus principales desafíos: la enseñanza de una IA a los entornos de enfoque de manera segura y efectiva. Cuello de botella en robótica y desarrollo de IA. Los agentes de entrenamiento en el mundo real es lento, costoso y potencialmente peligroso. Los modelos mundiales como Genie 3 ofrecen una solución al proporcionar una caja de arena segura, escalable e infinitamente variable para el aprendizaje.
Jack Parker-Holder, un científico de investigación sobre el equipo de fines abiertos de Deepmind, enfatizó esta estrategia, afirmando:”Creemos que los modelos mundiales son clave en el camino hacia AGI, especificadamente para los agentes incorporados, cuando simulando los escenarios del mundo real es particularmente desafiante”
Esta capacidad de simular contrafactuals permite que un agente de la experiencia, se adapte a los nuevos desafíos y desarrolle una comprensión más robusta de la causa y el efecto.
a los contrafactuales, lo que permite que un agente de la experiencia, sea más profundo, su integración, la integración más profunda, la integración de su utilidad, la integración de la creciente intextación, la integración de la integración más profunda, la integración de su utilidad. Genie 3 con su agente SIMA . En las manifestaciones, el agente recibió objetivos distintos y tuvo que lograrlos enviando comandos de navegación al Genie 3. El modelo mundial, sin darse cuenta del objetivo del agente, simplemente simularía las consecuencias físicas de esas acciones, obligando a Sima a planificar y ejecutar una secuencia más larga de acciones para suceder. Esto se convierte en un campo de entrenamiento ideal donde los agentes son empujados a sus límites, obligados a luchar y mejorar a través de la prueba y el error de una manera que refleje cómo aprenden los humanos.
Esta estrategia coloca a Google en competencia directa con rivales como Meta, que está desarrollando sus propios modelos mundiales como V-JepA 2 para Robotics. La creencia subyacente compartida en toda la industria es que una IA primero debe aprender a”pensar”y planificar dentro de una simulación interna precisa de la realidad antes de que pueda ser confiado para actuar de manera confiable en el mundo físico.
A pesar del progreso, Parker-Holder ofreció una analogía convincente para enmarcar hasta qué punto aún tiene que ir el campo. Sugirió que la industria aún no ha tenido su”momento de movimiento 37 para agentes encarnados”, donde pueden”tomar acciones novedosas en el mundo real”.
Esto se refiere al famoso y brillante movimiento de Alphago de DeepMind que señaló un nuevo paradigma de inteligencia de la máquina. Para la IA incorporada, ese momento sigue siendo el último, aún por alcance, que los modelos mundiales como Genie 3 están diseñados para habilitar un día.
Una previsión de investigación con limitaciones del mundo real
A pesar de su progreso, DeepMind es candente sobre las accesorios actuales de Genie 3. El modelo se está lanzando como una”vista previa de investigación limitada”a un pequeño grupo de académicos y creadores, no al público en general. Este enfoque cauteloso refleja la etapa naciente de la tecnología.
Las limitaciones clave incluyen un espacio de acción restringido para los agentes dentro de la simulación. Además, el modelo lucha con el texto de representación con precisión y aún no puede simular interacciones complejas entre múltiples agentes independientes, como se detalla en su documentación.
La duración de las simulaciones, aunque mejoró, aún está lejos de las horas necesarias para la capacitación integral de agentes. Fruchter reconoció el camino por delante, señalando:”Hay muchas cosas que tienen que suceder antes de que se pueda desplegar un modelo en el mundo real, pero sí lo vemos como una forma de entrenar de manera más eficiente y aumentar su confiabilidad”. Esto resalta el papel actual del modelo como una herramienta de investigación en lugar de un producto desplegable.
Esta versión medida permite a DeepMind recopilar comentarios y comprender mejor los riesgos asociados con herramientas generativas tan poderosas. Subraya los inmensos desafíos técnicos que quedan en la construcción de IA que realmente pueden reflejar la complejidad de nuestro mundo.