Em 7 de novembro de 2025, a Google Research apresentou um novo paradigma de aprendizado de máquina chamado Nested Learning, projetado para resolver o esquecimento catastrófico em modelos de IA.
Esse problema antigo faz com que os modelos apaguem conhecimentos antigos ao aprender novas informações. Como prova de conceito, a equipe revelou “Hope”, uma arquitetura automodificável que pode aprender e se adaptar continuamente.
O novo método trata uma IA não como um programa único, mas como um sistema de processos de aprendizagem aninhados que são atualizados em taxas diferentes. Essa abordagem imita o funcionamento da memória humana, com o objetivo de criar sistemas de IA mais dinâmicos e eficientes que possam melhorar ao longo do tempo sem retreinamento constante do zero.
Superando a amnésia da IA: o desafio do esquecimento catastrófico
Uma fraqueza fundamental de muitos sistemas avançados Os modelos de IA são a incapacidade de aprender sequencialmente. Quando uma rede neural é treinada com novos dados, muitas vezes ela esquece de forma abrupta e drástica as informações que dominava anteriormente.
Esse fenômeno, conhecido como esquecimento catastrófico ou interferência catastrófica, tem sido uma grande barreira para a criação de uma IA que possa realmente evoluir com novas experiências desde que foi identificada pela primeira vez por pesquisadores no final da década de 1980.
O problema decorre do que os cientistas cognitivos chamam de “dilema estabilidade-plasticidade.” Um sistema de aprendizagem eficaz deve ser plástico o suficiente para adquirir novos conhecimentos, mas também estável o suficiente para evitar que esse novo conhecimento substitua as memórias existentes.
A maioria das redes neurais padrão, especialmente aquelas que usam retropropagação, são altamente plásticas. Seus parâmetros internos, ou pesos, são ajustados para minimizar erros em novas tarefas.
No entanto, porque essas redes usam representações distribuídas, onde o conhecimento é armazenado em uma ampla gama de pesos compartilhados. Atualizar esses pesos para uma nova tarefa inevitavelmente perturba os padrões necessários para recuperar informações antigas.
O esquecimento catastrófico acontece quando parâmetros que não deveriam se mover são abalados por um grande gradiente repentino quando a perplexidade aumenta. Esse processo sobrepõe efetivamente novos dados aos antigos, levando a uma perda drástica e muitas vezes completa do aprendizado original.
Essa limitação contrasta fortemente com o aprendizado humano, que normalmente envolve o esquecimento gradual, em vez de uma eliminação repentina de habilidades ou conhecimentos.
O anúncio do Google traça uma analogia poderosa com a amnésia anterógrada, uma condição neurológica em que uma pessoa não consegue formar novas memórias de longo prazo. Os atuais modelos de grandes linguagens (LLMs) são igualmente limitados; seu conhecimento está confinado aos vastos dados pré-treinamento e às informações imediatas inseridas em sua janela de contexto.
Eles não conseguem integrar novas experiências em sua base de conhecimento principal. Como afirma o blog Google Research: “Quando se trata de aprendizado contínuo e autoaperfeiçoamento, o cérebro humano é o padrão ouro”.
Esse obstáculo não é apenas uma inconveniência teórica; é um obstáculo prático significativo que impede a IA de se adaptar a ambientes dinâmicos do mundo real, onde novas informações são constantes.
Aprendizado aninhado: um novo paradigma que unifica arquitetura e otimização
Para resolver uma das falhas mais persistentes da IA, os pesquisadores do Google propuseram uma estrutura que reimagina a própria estrutura dos modelos de aprendizagem.
O novo paradigma, chamado Nested Learning (NL), vai além da visão tradicional de empilhamento. camadas. Em vez disso, ela trata um modelo não como uma entidade monolítica, mas como uma coleção de problemas de otimização interconectados e de vários níveis que são executados simultaneamente.
Essa abordagem unifica fundamentalmente a arquitetura de um modelo e seu algoritmo de treinamento, vendo-os como diferentes “níveis” do mesmo processo central.
Cada nível dentro da estrutura de Nested Learning tem seu próprio “fluxo de contexto” distinto, o fluxo específico de informações com o qual ele aprende. Ele é atualizado em sua própria frequência. Este design é inspirado no processamento em várias escalas de tempo observado no cérebro humano, onde diferentes circuitos neurais operam em velocidades diferentes, semelhantes às ondas cerebrais.
Como afirma o artigo de pesquisa, “NL revela que os métodos de aprendizagem profunda existentes aprendem com os dados através da compressão de seu próprio fluxo de contexto e explicam como a aprendizagem no contexto surge em grandes modelos”. lentamente.
Um dos principais insights do Nested Learning é a reformulação dos componentes padrão do aprendizado de máquina como formas de memória associativa. O artigo demonstra que o próprio processo de retropropagação pode ser modelado como uma memória associativa que aprende a mapear um ponto de dados para seu “sinal surpresa local”, que é o erro ou gradiente.
Esse sinal quantifica o quão inesperados os dados são. Indo além, a estrutura reinterpreta otimizadores comuns, como Adam ou SGD com Momentum, como “Otimizadores profundos”.
Esses são essencialmente módulos de memória que aprendem a compactar o histórico de gradientes passados para informar atualizações futuras, em vez de serem apenas fórmulas matemáticas estáticas.
Embora a implementação seja nova, o conceito de aprendizagem autorreferencial tem raízes profundas na pesquisa de IA. A própria equipe do Google cita trabalhos fundamentais do início da década de 1990, incluindo um artigo de 1992 de Jürgen Schmidhuber sobre redes neurais que poderiam, teoricamente, modificar suas próprias regras de aprendizagem.
O Nested Learning visa fornecer uma estrutura prática e coerente para finalmente concretizar essas ambições teóricas de longa data, criando um caminho claro em direção a modelos que possam realmente aprender a aprender.
Esperança no horizonte: uma IA automodificadora que aprende a aprender
Inspirando-se na maneira como o cérebro humano processa a memória, a arquitetura ‘Hope’ serve como a primeira prova de conceito para o paradigma Nested Learning.
Hope é um sistema automodificável construído como uma variante da arquitetura”Titans”anterior do Google, um módulo de memória que prioriza informações com base em quão”surpreendente”ela é.
Ao contrário de seu antecessor,”Hope, no entanto, é uma arquitetura recorrente automodificável que pode tirar proveito de níveis ilimitados de aprendizagem no contexto…”
Ele consegue isso através de um sistema de memória contínua. (CMS), onde diferentes componentes de memória são atualizados em frequências variadas. Isso cria um espectro que vai desde a memória de atualização rápida e de curto prazo até o armazenamento de conhecimento de atualização lenta e de longo prazo.
Essa abordagem em camadas permite que o modelo aprenda essencialmente como aprender, um passo significativo além dos modelos estáticos. Isso significa que se você conseguir otimizar qualquer parte da pilha, ela será dimensionada com a computação e, assim, superará qualquer coisa que você poderia fazer manualmente.
O termo automodificação gerou entusiasmo, mas alguns especialistas alertam contra a interpretação excessiva. Em vez de reescrever literalmente seu código-fonte, o modelo ajusta seus parâmetros internos em velocidades diferentes.
Não há uma “voz interior” inspecionando a si mesmo ou reescrevendo literalmente seu próprio código-fonte. É basicamente um sistema feito de peças que aprendem em velocidades diferentes. Isso permite integrar novos fatos sem substituir o conhecimento principal.
Resultados promissores e questões persistentes
Os benchmarks iniciais para a arquitetura Hope, conforme detalhado no artigo do NeurIPS, são promissores em vários tamanhos de modelo. A equipe de pesquisa testou versões de parâmetros 340M, 760M e 1,3B do Hope em comparação com modelos contemporâneos como Transformer++, Retentive Network (RetNet) e Titãs.
Em tarefas de modelagem de linguagem e raciocínio de senso comum, Hope demonstrou consistentemente um forte desempenho. Por exemplo, o modelo de parâmetro 1,3B, treinado em 100 bilhões de tokens, alcançou uma pontuação média de benchmark de 57,23, superando os modelos comparáveis Transformer++ (52,25) e Titans (56,82). amostra e maior precisão em um conjunto de testes, incluindo PIQA, HellaSwag e BoolQ.
O artigo também destaca os recursos superiores de gerenciamento de memória do Hope, especialmente em tarefas Needle-In-Haystack (NIAH) de contexto longo, nas quais um modelo deve encontrar uma informação específica em um grande volume de texto.
Os autores atribuem esse sucesso ao Continuum Memory System (CMS), o que permite uma maneira mais eficiente e eficaz de lidar com sequências estendidas de informações.
Essa capacidade de gerenciar dinamicamente a memória e atualizar o aprendizado com base no contexto é o que diferencia a arquitetura de modelos mais estáticos, como Transformers padrão.
Apesar desses fortes resultados iniciais, um certo grau de ceticismo é justificado, principalmente devido aos dados empíricos limitados fornecidos no artigo disponível publicamente.
Os autores observam no próprio artigo que a versão do NeurIPS foi “amplamente resumida para se adequar ao limite de páginas”e direciona os leitores para uma versão mais abrangente no arXiv para obter detalhes completos.
A abordagem é empolgante, mas o artigo do Googlee também carece de resultados empíricos.
Isso destaca uma lacuna crítica entre a promessa teórica e o desempenho verificável da nova arquitetura. Teremos que esperar pelos resultados detalhados, especialmente nas tarefas de longo contexto, onde arquiteturas inovadoras semelhantes anteriormente lutaram para escalar de forma eficaz, antes de declarar o Nested Learning um verdadeiro avanço.