Google Research introduceerde op 7 november 2025 een nieuw machine learning-paradigma genaamd Nested Learning, ontworpen om catastrofaal vergeten in AI-modellen op te lossen.
Dit al lang bestaande probleem zorgt ervoor dat modellen oude kennis uitwissen bij het leren van nieuwe informatie. Als proof-of-concept onthulde het team’Hope’, een zelfmodificerende architectuur die voortdurend kan leren en zich kan aanpassen.
De nieuwe methode behandelt een AI niet als een enkel programma, maar als een systeem van geneste leerprocessen die met verschillende snelheden worden bijgewerkt. Deze aanpak bootst de werking van het menselijk geheugen na, met als doel dynamischere en efficiëntere AI-systemen te creëren die in de loop van de tijd kunnen verbeteren zonder voortdurend opnieuw te moeten trainen.
Het geheugenverlies van AI overwinnen: de uitdaging van catastrofaal vergeten
Een fundamentele zwakte van veel geavanceerde AI-modellen is hun onvermogen om opeenvolgend te leren. Wanneer een neuraal netwerk wordt getraind op nieuwe gegevens, vergeet het vaak abrupt en drastisch informatie die het eerder onder de knie had.
Dit fenomeen, bekend als catastrofaal vergeten of catastrofale interferentie, is een grote barrière geweest voor het creëren van AI die echt kan evolueren met nieuwe ervaringen, sinds het voor het eerst werd geïdentificeerd door onderzoekers eind jaren tachtig.
Het probleem komt voort uit wat cognitieve wetenschappers de “dilemma stabiliteit en plasticiteit.” Een effectief leersysteem moet plastisch genoeg zijn om nieuwe kennis te verwerven, maar ook stabiel genoeg om te voorkomen dat die nieuwe kennis bestaande herinneringen overschrijft.
De meeste standaard neurale netwerken, vooral die netwerken die backpropagation gebruiken, zijn zeer plastisch. Hun interne parameters, of gewichten, worden aangepast om fouten bij nieuwe taken te minimaliseren.
Omdat deze netwerken echter gedistribueerde representaties gebruiken, waarbij kennis wordt opgeslagen over een breed scala aan gedeelde gewichten. Het bijwerken van deze gewichten voor een nieuwe taak verstoort onvermijdelijk de patronen die nodig zijn om oude informatie op te roepen.
Catastrofaal vergeten gebeurt wanneer parameters die niet zouden moeten bewegen, door elkaar worden geschud door een plotselinge grote gradiënt wanneer de verwarring toeneemt. Dit proces legt op effectieve wijze nieuwe gegevens bovenop oude gegevens, wat leidt tot een drastisch en vaak volledig verlies van het oorspronkelijke leerproces.
Deze beperking staat in sterk contrast met het leren van mensen, waarbij doorgaans sprake is van geleidelijk vergeten in plaats van het plotseling wegvagen van vaardigheden of kennis.
De aankondiging van Google trekt een krachtige analogie met anterograde amnesie, een neurologische aandoening waarbij een persoon geen nieuwe langetermijnherinneringen kan vormen. De huidige grote taalmodellen (LLM’s) zijn eveneens beperkt; hun kennis is beperkt tot hun enorme gegevens vóór de training en de directe informatie die in hun contextvenster wordt ingevoerd.
Ze kunnen geen nieuwe ervaringen integreren in hun kernkennisbasis. Zoals de blog van Google Research stelt:”Als het gaat om voortdurend leren en zelfverbetering, is het menselijk brein de gouden standaard.”
Deze hindernis is niet alleen een theoretisch ongemak; het is een belangrijk praktisch obstakel dat AI ervan weerhoudt zich aan te passen aan dynamische, reële omgevingen waar nieuwe informatie constant is.
Nested Learning: een nieuw paradigma dat architectuur en optimalisatie verenigt
Om een van de meest hardnekkige tekortkomingen van AI aan te pakken, hebben Google-onderzoekers een raamwerk voorgesteld dat de structuur zelf van leermodellen opnieuw verbeeldt.
Het nieuwe paradigma, Nested Learning (NL) genoemd, gaat verder dan de traditionele kijk op het stapelen van lagen. In plaats daarvan behandelt het een model niet als een monolithische entiteit, maar als een verzameling onderling verbonden optimalisatieproblemen op meerdere niveaus die tegelijkertijd worden uitgevoerd.
Deze benadering verenigt op fundamentele wijze de architectuur van een model en zijn trainingsalgoritme, door ze te beschouwen als verschillende “niveaus” van hetzelfde kernproces.
Elk niveau binnen het Nested Learning-framework heeft zijn eigen specifieke “contextstroom”, de specifieke informatiestroom waar het van leert. Het wordt op zijn eigen frequentie bijgewerkt. Dit ontwerp is geïnspireerd op de verwerking op meerdere tijdschalen die wordt waargenomen in het menselijk brein, waarbij verschillende neurale circuits met verschillende snelheden werken, vergelijkbaar met hersengolven.
Zoals het onderzoekspaper stelt:”NL laat zien dat bestaande deep learning-methoden leren van gegevens door hun eigen contextstroom te comprimeren, en verklaren hoe in-context leren ontstaat in grote modellen.”
Dit zorgt voor een meer granulaire en efficiënte vorm van leren, waarbij sommige delen van het model zich snel kunnen aanpassen aan nieuwe informatie, terwijl andere worden geconsolideerd kennis langzamer.
Een kerninzicht van Nested Learning is de herformulering van standaard machine learning-componenten als vormen van associatief geheugen. Het artikel laat zien dat het backpropagatieproces zelf kan worden gemodelleerd als een associatief geheugen dat leert een datapunt toe te wijzen aan zijn ‘lokale verrassingssignaal’, dat wil zeggen de fout of gradiënt.
Dit signaal kwantificeert hoe onverwacht de gegevens zijn. Als we verder gaan, herinterpreteert het raamwerk gewone optimizers, zoals Adam of SGD met Momentum, als ‘Deep Optimizers’.
Dit zijn in wezen geheugenmodules die leren de geschiedenis van eerdere gradiënten te comprimeren om toekomstige updates te informeren, in plaats van alleen maar statische wiskundige formules te zijn.
Hoewel de implementatie nieuw is, heeft het concept van zelfreferentieel leren diepe wortels in AI-onderzoek. Het Google-team citeert zelf fundamenteel werk uit het begin van de jaren negentig, waaronder een artikel uit 1992 van Jürgen Schmidhuber over neurale netwerken die theoretisch hun eigen leerregels zouden kunnen wijzigen.
Nested Learning heeft tot doel een praktisch en samenhangend raamwerk te bieden om deze lang gekoesterde theoretische ambities eindelijk te realiseren, en een duidelijk pad te creëren naar modellen die echt kunnen leren hoe te leren.
Hope on the Horizon: een zelfmodificerende AI die leert hoe te leren
Geïnspireerd door de manier waarop het menselijk brein geheugen verwerkt, dient de’Hope’-architectuur als het eerste proof-of-concept voor Nested Learning paradigma.
Hope is een zelfmodificerend systeem dat is gebouwd als een variant van de eerdere’Titans’-architectuur van Google, een geheugenmodule die informatie prioriteit geeft op basis van hoe’verrassend’deze is.
In tegenstelling tot zijn voorganger is’Hope echter een zichzelf modificerende, terugkerende architectuur die kan profiteren van grenzeloze niveaus van in-context leren…’
Dit wordt bereikt via een Continuum Memory System (CMS), waarbij verschillende geheugencomponenten worden met verschillende frequenties bijgewerkt. Hierdoor ontstaat een spectrum van snel bijwerkend kortetermijngeheugen tot langzaam bijwerkend kennisopslag op de lange termijn.
Dankzij deze gelaagde aanpak kan het model in wezen leren hoe te leren, een belangrijke stap verder dan statische modellen. Het betekent dat als je een deel van de stapel zichzelf kunt laten optimaliseren, deze met rekenkracht zal worden geschaald en dus uiteindelijk beter zal presteren dan alles wat je met de hand zou kunnen doen.
De term zelfmodificeren heeft voor opwinding gezorgd, maar sommige experts waarschuwen voor overinterpretatie. In plaats van de broncode letterlijk te herschrijven, past het model de interne parameters met verschillende snelheden aan.
Er is geen “innerlijke stem” die zichzelf inspecteert of letterlijk zijn eigen broncode herschrijft. Het is eigenlijk een systeem dat bestaat uit onderdelen die met verschillende snelheden leren. Hierdoor kan het nieuwe feiten integreren zonder de kernkennis te overschrijven.
Veelbelovende resultaten en slepende vragen
Initiële benchmarks voor de Hope-architectuur, zoals beschreven in het NeurIPS-artikel, zijn veelbelovend voor verschillende modelgroottes. Het onderzoeksteam testte 340M-, 760M-en 1.3B-parameterversies van Hope met hedendaagse modellen zoals Transformer++, Retentive Network (RetNet), en Titans.
In taalmodellering en op gezond verstand redeneren liet Hope consequent sterke prestaties zien. Het 1,3B-parametermodel, getraind op 100 miljard tokens, behaalde bijvoorbeeld een gemiddelde benchmarkscore van 57,23 en presteerde daarmee beter dan de vergelijkbare Transformer++ (52,25) en Titans (56,82) modellen.
Het vertoonde een lagere verbijstering, een maatstaf voor hoe goed een model een voorbeeld en hogere nauwkeurigheid voor een reeks tests, waaronder PIQA, HellaSwag en BoolQ.
Het artikel benadrukt ook de superieure geheugenbeheermogelijkheden van Hope, vooral bij Needle-In-Haystack (NIAH)-taken met lange context, waarbij een model een specifiek stukje informatie moet vinden binnen een grote hoeveelheid tekst.
De auteurs schrijven dit succes toe aan het Continuum Memory System (CMS), dat dit mogelijk maakt een efficiëntere en effectievere manier om uitgebreide reeksen informatie te verwerken.
Dit vermogen om het geheugen dynamisch te beheren en het leerproces bij te werken op basis van context is wat de architectuur onderscheidt van meer statische modellen zoals standaard Transformers.
Ondanks deze sterke eerste resultaten is een zekere mate van scepsis gerechtvaardigd, voornamelijk vanwege de beperkte empirische gegevens die in het openbaar beschikbare artikel worden verstrekt.
De auteurs merken in het artikel zelf op dat de NeurIPS-versie “uitgebreid” was samengevat om aan de paginalimiet te voldoen”en verwijst lezers naar een uitgebreidere versie op arXiv voor volledige details.
De aanpak is spannend, maar het artikel van Googlee bevat ook vrij weinig empirische resultaten.
Dit benadrukt een kritische kloof tussen de theoretische belofte en de verifieerbare prestaties van de nieuwe architectuur. We zullen moeten wachten op de gedetailleerde resultaten, vooral op de taken met een lange context waar soortgelijke innovatieve architecturen voorheen moeite hebben gehad om effectief te schalen, voordat we Nested Learning tot een echte doorbraak kunnen verklaren.