El 7 de noviembre de 2025, Google Research presentó un nuevo paradigma de aprendizaje automático llamado Nested Learning, diseñado para resolver olvidos catastróficos en modelos de IA.

Este problema de larga data hace que los modelos borren conocimientos antiguos cuando aprenden nueva información. Como prueba de concepto, el equipo reveló”Hope”, una arquitectura automodificable que puede aprender y adaptarse continuamente.

El nuevo método trata una IA no como un programa único, sino como un sistema de procesos de aprendizaje anidados que se actualizan a diferentes ritmos. Este enfoque imita cómo funciona la memoria humana, con el objetivo de crear sistemas de IA más dinámicos y eficientes que puedan mejorar con el tiempo sin un reentrenamiento constante desde cero.

Superar la amnesia de la IA: el desafío del olvido catastrófico

Una debilidad fundamental de Muchos modelos avanzados de IA es su incapacidad para aprender secuencialmente. Cuando una red neuronal se entrena con nuevos datos, a menudo olvida abrupta y drásticamente información que ya dominaba.

Este fenómeno, conocido como olvido catastrófico o interferencia catastrófica, ha sido una barrera importante para la creación de una IA que realmente pueda evolucionar con nuevas experiencias desde que fue identificada por primera vez por los investigadores a fines de la década de 1980.

El problema surge de lo que los científicos cognitivos llaman “dilema estabilidad-plasticidad”. Un sistema de aprendizaje eficaz debe ser lo suficientemente plástico para adquirir nuevos conocimientos, pero también lo suficientemente estable como para evitar que esos nuevos conocimientos sobrescriban los recuerdos existentes.

La mayoría de las redes neuronales estándar, particularmente aquellas que utilizan retropropagación, son altamente plásticas. Sus parámetros internos, o ponderaciones, se ajustan para minimizar el error en nuevas tareas.

Sin embargo, estas redes utilizan representaciones distribuidas, donde el conocimiento se almacena en una amplia gama de ponderaciones compartidas. Actualizar estos pesos para una nueva tarea inevitablemente altera los patrones necesarios para recordar información antigua.

El olvido catastrófico ocurre cuando los parámetros que no deberían moverse se ven sacudidos por un gran gradiente repentino cuando aumenta la perplejidad. Este proceso superpone efectivamente datos nuevos sobre los antiguos, lo que conduce a una pérdida drástica y, a menudo, completa del aprendizaje original.

Esta limitación contrasta fuertemente con el aprendizaje humano, que normalmente implica un olvido gradual en lugar de una eliminación repentina de habilidades o conocimientos.

El anuncio de Google establece una poderosa analogía con la amnesia anterógrada, una condición neurológica en la que una persona no puede formar nuevos recuerdos a largo plazo. Los modelos de lenguajes grandes (LLM) actuales son igualmente limitados; su conocimiento se limita a sus vastos datos previos al entrenamiento y a la información inmediata ingresada en su ventana de contexto.

No pueden integrar nuevas experiencias en su base de conocimientos central. Como afirma el blog de Google Research:”Cuando se trata de aprendizaje continuo y superación personal, el cerebro humano es el estándar de oro”.

Este obstáculo no es sólo un inconveniente teórico; es un obstáculo práctico importante que impide que la IA se adapte a entornos dinámicos del mundo real donde la nueva información es constante.

Aprendizaje anidado: un nuevo paradigma que unifica la arquitectura y la optimización

Para abordar uno de los defectos más persistentes de la IA, los investigadores de Google han propuesto un marco que reimagina la estructura misma de los modelos de aprendizaje.

El nuevo paradigma, llamado Aprendizaje anidado (NL), va más allá de la visión tradicional de apilar capas. En cambio, trata un modelo no como una entidad monolítica sino como una colección de problemas de optimización de múltiples niveles interconectados que se ejecutan simultáneamente.

Este enfoque unifica fundamentalmente la arquitectura de un modelo y su algoritmo de entrenamiento, viéndolos como diferentes “niveles” del mismo proceso central.

Cada nivel dentro del marco de aprendizaje anidado tiene su propio “flujo de contexto”, el flujo específico de información del que aprende. Se actualiza a su propia frecuencia. Este diseño está inspirado en el procesamiento de múltiples escalas de tiempo observado en el cerebro humano, donde diferentes circuitos neuronales operan a diferentes velocidades, similares a las ondas cerebrales.

Como afirma el artículo de investigación,”NL revela que los métodos de aprendizaje profundo existentes aprenden de los datos comprimiendo su propio flujo de contexto y explican cómo surge el aprendizaje en contexto en modelos grandes”.

Esto permite una forma de aprendizaje más granular y eficiente, donde algunas partes del modelo pueden adaptarse rápidamente a nueva información mientras que otras consolidar el conocimiento más lentamente.

Una idea central del aprendizaje anidado es su redefinición de los componentes estándar del aprendizaje automático como formas de memoria asociativa. El artículo demuestra que el proceso de retropropagación en sí se puede modelar como una memoria asociativa que aprende a asignar un punto de datos a su”señal de sorpresa local”, que es el error o gradiente.

Esta señal cuantifica cuán inesperados son los datos. Yendo más allá, el marco reinterpreta los optimizadores comunes, como Adam o SGD con Momentum, como”Optimizadores profundos”.

Estos son esencialmente módulos de memoria que aprenden a comprimir el historial de gradientes pasados ​​para informar actualizaciones futuras, en lugar de ser simplemente fórmulas matemáticas estáticas.

Si bien la implementación es novedosa, el concepto de aprendizaje autorreferencial tiene profundas raíces en la investigación de la IA. El propio equipo de Google cita trabajos fundacionales de principios de la década de 1990, incluido un artículo de 1992 de Jürgen Schmidhuber sobre redes neuronales que teóricamente podrían modificar sus propias reglas de aprendizaje.

Nested Learning tiene como objetivo proporcionar un marco práctico y coherente para finalmente hacer realidad estas ambiciones teóricas de larga data, creando un camino claro hacia modelos que realmente puedan aprender a aprender.

Hope on the Horizon: una IA automodificable que aprende a aprender

Inspirándose en la forma en que el cerebro humano procesa la memoria, la arquitectura’Hope’sirve como la primera prueba de concepto para el Paradigma de aprendizaje anidado.

Hope es un sistema automodificable creado como una variante de la arquitectura anterior”Titans”de Google, un módulo de memoria que prioriza la información en función de lo”sorprendente”que es.

A diferencia de su predecesor,”Hope, sin embargo, es una arquitectura recurrente automodificable que puede aprovechar niveles ilimitados de aprendizaje en contexto…”

Lo logra a través de un sistema de memoria continua. (CMS), donde diferentes componentes de la memoria se actualizan a diferentes frecuencias. Esto crea un espectro que va desde la memoria a corto plazo de actualización rápida hasta el almacenamiento de conocimiento a largo plazo y de actualización lenta.

Este enfoque en capas permite que el modelo esencialmente aprenda a aprender, un paso significativo más allá de los modelos estáticos. Significa que si puede hacer que cualquier parte de la pila se optimice, se ampliará con la computación y, por lo tanto, eventualmente superará cualquier cosa que pueda hacer manualmente.

El término automodificación ha generado entusiasmo, pero algunos expertos advierten contra una interpretación excesiva. En lugar de reescribir literalmente su código fuente, el modelo ajusta sus parámetros internos a diferentes velocidades.

No hay una”voz interior”que se inspeccione a sí mismo o reescriba literalmente su propio código fuente. Básicamente es un sistema formado por piezas que aprenden a diferentes velocidades. Esto le permite integrar nuevos hechos sin sobrescribir el conocimiento básico.

Resultados prometedores y preguntas persistentes

Los puntos de referencia iniciales para la arquitectura Hope, como se detalla en el artículo de NeurIPS, son prometedores en varios tamaños de modelos. El equipo de investigación probó versiones de parámetros de 340M, 760M y 1,3B de Hope con modelos contemporáneos como Transformer++, Retentive Network (RetNet) y Titanes.

En tareas de modelado de lenguaje y razonamiento de sentido común, Hope demostró consistentemente un sólido desempeño. Por ejemplo, el modelo de parámetros 1.3B, entrenado con 100 mil millones de tokens, logró una puntuación de referencia promedio de 57,23, superando a los modelos comparables Transformer++ (52,25) y Titans (56,82).

Mostró una menor perplejidad, una medida de qué tan bien un modelo predice una muestra y mayor precisión en un conjunto de pruebas que incluyen PIQA, HellaSwag y BoolQ.

El artículo también destaca las capacidades superiores de gestión de memoria de Hope, particularmente en tareas de contexto largo Needle-In-Haystack (NIAH), donde un modelo debe encontrar una información específica dentro de un gran volumen de texto.

Los autores atribuyen este éxito al Continuum Memory System (CMS), que permite una forma más eficiente y efectiva de manejar secuencias extendidas de información.

Esta capacidad de administrar dinámicamente la memoria y actualizar el aprendizaje según el contexto es lo que distingue a la arquitectura de modelos más estáticos como los Transformers estándar.

A pesar de estos sólidos resultados iniciales, se justifica cierto grado de escepticismo, principalmente debido a los datos empíricos limitados proporcionados en el artículo disponible públicamente.

Los autores señalan en el artículo mismo que la versión NeurIPS fue “ampliamente resumido para ajustarse al límite de páginas”y dirige a los lectores a una versión más completa en arXiv para obtener todos los detalles. 

El enfoque es interesante, pero el artículo de Googlee también se queda bastante corto en cuanto a resultados empíricos.

Esto resalta una brecha crítica entre la promesa teórica y el rendimiento verificable de la nueva arquitectura. Tendremos que esperar a obtener resultados detallados, especialmente en las tareas de contexto prolongado en las que arquitecturas innovadoras similares han tenido dificultades para escalar de manera efectiva, antes de declarar que Nested Learning es un verdadero avance.

Categories: IT Info