Google Research, il 7 novembre 2025, ha introdotto un nuovo paradigma di machine learning chiamato Nested Learning, progettato per risolvere catastrofiche dimenticanze nei modelli di intelligenza artificiale.

Questo problema di lunga data fa sì che i modelli cancellino vecchie conoscenze quando apprendono nuove informazioni. Come prova di concetto, il team ha rivelato”Hope”, un’architettura automodificante in grado di apprendere e adattarsi continuamente.

Il nuovo metodo tratta un’intelligenza artificiale non come un singolo programma, ma come un sistema di processi di apprendimento nidificati che si aggiornano a velocità diverse. Questo approccio imita il funzionamento della memoria umana, con l’obiettivo di creare sistemi di intelligenza artificiale più dinamici ed efficienti in grado di migliorare nel tempo senza dover riqualificarsi costantemente da zero.

Superare l’amnesia dell’intelligenza artificiale: la sfida dell’oblio catastrofico

Una debolezza fondamentale di molti modelli avanzati di intelligenza artificiale è la loro incapacità di apprendere in sequenza. Quando una rete neurale viene addestrata su nuovi dati, spesso dimentica improvvisamente e drasticamente le informazioni che aveva precedentemente acquisito.

Questo fenomeno, noto come oblio catastrofico o interferenza catastrofica, ha rappresentato un ostacolo importante alla creazione di un’intelligenza artificiale in grado di evolversi veramente con nuove esperienze da quando è stato identificato per la prima volta dai ricercatori alla fine degli anni’80.

Il problema deriva da ciò che gli scienziati cognitivi chiamano “dilemma stabilità-plasticità.”Un sistema di apprendimento efficace deve essere sufficientemente plastico per acquisire nuova conoscenza, ma anche sufficientemente stabile da impedire che la nuova conoscenza sovrascriva i ricordi esistenti.

La maggior parte delle reti neurali standard, in particolare quelle che utilizzano la backpropagation, sono altamente plastiche. I loro parametri interni, o pesi, vengono adattati per ridurre al minimo gli errori sulle nuove attività.

Tuttavia, poiché queste reti utilizzano rappresentazioni distribuite, in cui la conoscenza è archiviata in un’ampia gamma di pesi condivisi. L’aggiornamento di questi pesi per una nuova attività sconvolge inevitabilmente gli schemi necessari per ricordare vecchie informazioni.

L’oblio catastrofico si verifica quando parametri che non dovrebbero muoversi vengono scossi da un improvviso e ampio gradiente quando la perplessità aumenta. Questo processo sovrappone efficacemente nuovi dati a quelli vecchi, portando a una perdita drastica e spesso completa dell’apprendimento originale.

Questa limitazione è in forte contrasto con l’apprendimento umano, che in genere comporta un graduale oblio piuttosto che un’improvvisa cancellazione di abilità o conoscenze.

L’annuncio di Google traccia una potente analogia con l’amnesia anterograda, una condizione neurologica in cui una persona non può formare nuovi ricordi a lungo termine. Gli attuali modelli linguistici di grandi dimensioni (LLM) sono altrettanto limitati; la loro conoscenza è limitata ai vasti dati pre-formazione e alle informazioni immediate inserite nella loro finestra di contesto.

Non possono integrare nuove esperienze nella loro base di conoscenza di base. Come afferma il blog di Google Research,”Quando si tratta di apprendimento continuo e auto-miglioramento, il cervello umano è il gold standard.”

Questo ostacolo non è solo un inconveniente teorico; si tratta di un ostacolo pratico significativo che impedisce all’intelligenza artificiale di adattarsi ad ambienti dinamici e reali in cui le nuove informazioni sono costanti.

Apprendimento annidato: un nuovo paradigma che unifica architettura e ottimizzazione

Per affrontare uno dei difetti più persistenti dell’intelligenza artificiale, i ricercatori di Google hanno proposto un framework che reinventa la struttura stessa dei modelli di apprendimento.

Il nuovo paradigma, chiamato Nested Learning (NL), va oltre la visione tradizionale dello stacking. strati. Tratta invece un modello non come un’entità monolitica ma come una raccolta di problemi di ottimizzazione multilivello interconnessi che vengono eseguiti simultaneamente.

Questo approccio unifica fondamentalmente l’architettura di un modello e il suo algoritmo di training, considerandoli come diversi”livelli”dello stesso processo principale.

Ogni livello all’interno del framework Nested Learning ha il proprio”flusso di contesto”distinto, il flusso specifico di informazioni da cui apprende. Si aggiorna con la propria frequenza. Questo progetto si ispira all’elaborazione multiscala temporale osservata nel cervello umano, dove diversi circuiti neurali operano a velocità diverse, simili alle onde cerebrali.

Come afferma il documento di ricerca,”NL rivela che i metodi esistenti di deep learning apprendono dai dati comprimendo il proprio flusso di contesto e spiegano come l’apprendimento in contesto emerge in modelli di grandi dimensioni.”

Ciò consente una forma di apprendimento più granulare ed efficiente, in cui alcune parti del modello possono adattarsi rapidamente alle nuove informazioni mentre altre consolidano la conoscenza più lentamente.

Un aspetto fondamentale del Nested Learning è la sua riformulazione dei componenti standard del machine learning come forme di memoria associativa. L’articolo dimostra che lo stesso processo di backpropagation può essere modellato come una memoria associativa che impara a mappare un punto dati sul suo”segnale di sorpresa locale”, che è l’errore o il gradiente.

Questo segnale quantifica quanto siano inattesi i dati. Andando oltre, il framework reinterpreta gli ottimizzatori comuni, come Adam o SGD con Momentum, come”Deep Optimizer”.

Si tratta essenzialmente di moduli di memoria che imparano a comprimere la storia dei gradienti passati per informare gli aggiornamenti futuri, piuttosto che essere semplici formule matematiche statiche.

Sebbene l’implementazione sia nuova, il concetto di apprendimento autoreferenziale ha radici profonde nella ricerca sull’intelligenza artificiale. Lo stesso team di Google cita lavori fondamentali dei primi anni’90, tra cui un articolo del 1992 di Jürgen Schmidhuber sulle reti neurali che potrebbero teoricamente modificare le proprie regole di apprendimento.

Il Nested Learning mira a fornire un quadro pratico e coerente per realizzare finalmente queste ambizioni teoriche di lunga data, creando un percorso chiaro verso modelli in grado di imparare veramente ad apprendere.

Hope on the Horizon: A Self-Modifying AI che impara ad apprendere

Traendo ispirazione dal modo in cui il cervello umano elabora la memoria, l’architettura”Hope”funge da prima prova di concetto per il paradigma Nested Learning.

Hope è un sistema automodificante costruito come una variante della precedente architettura”Titans”di Google, un modulo di memoria che dà priorità alle informazioni in base a quanto siano”sorprendenti”.

A differenza del suo predecessore,”Hope, tuttavia, è un’architettura ricorrente automodificante che può trarre vantaggio da livelli illimitati di apprendimento in contesto…”

Raggiunge questo obiettivo attraverso una memoria continua System (CMS), in cui diversi componenti della memoria si aggiornano a frequenze variabili. Ciò crea uno spettro che va dalla memoria a breve termine con aggiornamento rapido all’archiviazione della conoscenza a lungo termine e con aggiornamento lento.

Questo approccio a più livelli consente al modello di imparare essenzialmente come apprendere, un passo significativo oltre i modelli statici. Significa che se riesci a ottimizzare qualsiasi parte dello stack, si espanderà con il calcolo e quindi supererà qualsiasi cosa potresti fare manualmente alla fine.

Il termine automodifica ha generato entusiasmo, ma alcuni esperti mettono in guardia contro un’interpretazione eccessiva. Invece di riscrivere letteralmente il proprio codice sorgente, il modello adatta i propri parametri interni a velocità diverse.

Non esiste una”voce interiore”che si ispezioni o che riscriva letteralmente il proprio codice sorgente. È fondamentalmente un sistema composto da parti che apprendono a velocità diverse. Ciò gli consente di integrare nuovi fatti senza sovrascrivere le conoscenze di base.

Risultati promettenti e domande persistenti

I benchmark iniziali per l’architettura Hope, come dettagliato nel documento NeurIPS, sono promettenti per diverse dimensioni di modello. Il team di ricerca ha testato versioni con parametri 340M, 760M e 1.3B di Hope rispetto a modelli contemporanei come Transformer++, Retentive Network (RetNet), e Titans.

Nei compiti di modellazione del linguaggio e di ragionamento basato sul buon senso, Hope ha costantemente dimostrato ottime prestazioni. Ad esempio, il modello con parametri 1.3B, addestrato su 100 miliardi di token, ha raggiunto un punteggio benchmark medio di 57,23, superando i modelli comparabili Transformer++ (52,25) e Titans (56,82).

Ha mostrato una perplessità inferiore, una misura di quanto bene un modello prevede un campione, e superiore. accuratezza in una serie di test tra cui PIQA, HellaSwag e BoolQ.

L’articolo evidenzia inoltre le capacità superiori di gestione della memoria di Hope, in particolare nelle attività Needle-In-Haystack (NIAH) a lungo contesto, in cui un modello deve trovare un’informazione specifica all’interno di un grande volume di testo.

Gli autori attribuiscono questo successo al Continuum Memory System (CMS), che consente un modo più efficiente ed efficace per gestire sequenze estese di informazioni.

Questa capacità gestire dinamicamente la memoria e aggiornare l’apprendimento in base al contesto è ciò che distingue l’architettura dai modelli più statici come Transformers standard.

Nonostante questi ottimi risultati iniziali, un certo grado di scetticismo è giustificato, principalmente a causa dei dati empirici limitati forniti nel documento disponibile al pubblico.

Gli autori notano nel documento stesso che la versione NeurIPS è stata”ampiamente riassunta per adattarsi al limite di pagine”e indirizzano i lettori a una versione più completa su arXiv per la versione completa dettagli. 

L’approccio è entusiasmante, ma il documento di Googlee è anche piuttosto carente di risultati empirici.

Ciò evidenzia un divario critico tra la promessa teorica e le prestazioni verificabili della nuova architettura. Dovremo attendere i risultati dettagliati, in particolare sui compiti a lungo contesto in cui architetture innovative simili hanno precedentemente faticato a scalare in modo efficace, prima di dichiarare il Nested Learning una vera svolta.

Categories: IT Info