Google Research introduserte 7. november 2025 et nytt maskinlæringsparadigme kalt Nested Learning, designet for å løse katastrofal glemsel i AI-modeller.

Dette langvarige problemet får modeller til å slette gammel kunnskap når de lærer ny informasjon. Som et proof-of-concept avslørte teamet «Hope», en selvmodifiserende arkitektur som kontinuerlig kan lære og tilpasse seg.

Den nye metoden behandler en AI ikke som et enkelt program, men som et system med nestede læringsprosesser som oppdateres med forskjellige hastigheter. Denne tilnærmingen etterligner hvordan menneskelig hukommelse fungerer, og tar sikte på å skape mer dynamiske og effektive AI-systemer som kan forbedres over tid uten konstant omskolering fra bunnen av.

The Challenges of Catastroph AI: Å glemme

En grunnleggende svakhet ved mange avanserte AI-modeller er deres manglende evne til å lære sekvensielt. Når et nevralt nettverk trenes på nye data, glemmer det ofte brått og drastisk informasjon det tidligere mestret.

Dette fenomenet, kjent som katastrofal glemsel eller katastrofal interferens, har vært en stor barriere for å skape AI som virkelig kan utvikle seg med nye erfaringer siden det først ble identifisert av forskere på slutten av 198. kognitive forskere kaller «stabilitet-plastisitets-dilemmaet». Et effektivt læringssystem må være plastisk nok til å tilegne seg ny kunnskap, men også stabilt nok til å forhindre at den nye kunnskapen overskriver eksisterende minner.

De fleste standard nevrale nettverk, spesielt de som bruker tilbakepropagasjon, er svært plastiske. Deres interne parametere, eller vekter, justeres for å minimere feil på nye oppgaver.

Men fordi disse nettverkene bruker distribuerte representasjoner, hvor kunnskap lagres på tvers av et bredt spekter av delte vekter. Oppdatering av disse vektene for en ny oppgave forstyrrer uunngåelig mønstrene som kreves for å gjenkalle gammel informasjon.

Katastrofale glemmer skjer når parametere som ikke skal bevege seg, rystes opp av en plutselig stor gradient når forvirringen øker. Denne prosessen legger effektivt nye data på toppen av gamle, noe som fører til et drastisk og ofte fullstendig tap av den opprinnelige læringen.

Denne begrensningen står i sterk kontrast til menneskelig læring, som vanligvis involverer gradvis glemsel i stedet for en plutselig utsletting av ferdigheter eller kunnskap.

Googles kunngjøring trekker en kraftig analogi til anterograd hukommelsestap der en person ikke kan danne langsiktig hukommelsestap. Nåværende store språkmodeller (LLMs) er tilsvarende begrenset; kunnskapen deres er begrenset til deres enorme data før opplæring og den umiddelbare informasjonen som føres inn i kontekstvinduet deres.

De kan ikke integrere nye erfaringer i deres kjernekunnskapsbase. Som Google Research-bloggen sier:”Når det kommer til kontinuerlig læring og selvforbedring, er den menneskelige hjernen gullstandarden.”

Denne hindringen er ikke bare en teoretisk ulempe; det er en betydelig praktisk hindring som hindrer AI i å tilpasse seg dynamiske miljøer i den virkelige verden der ny informasjon er konstant.

Nested Learning: A New Paradigm Unifying Architecture and Optimization

For å løse en av AIs mest vedvarende feil, har Google-forskere foreslått en helt ny struktur for læringsmodeller.

paradigme, kalt Nested Learning (NL), beveger seg utover det tradisjonelle synet på stabling av lag. I stedet behandler den en modell ikke som en monolittisk enhet, men som en samling av sammenkoblede optimaliseringsproblemer på flere nivåer som kjører samtidig.

Denne tilnærmingen forener fundamentalt en modells arkitektur og dens treningsalgoritme, og ser på dem som forskjellige”nivåer”av den samme kjerneprosessen.

Hver spesifikke læringsramme i Nest-flyten, strøm av informasjon den lærer av. Den oppdateres med sin egen frekvens. Denne utformingen er inspirert av multi-timeskala-prosesseringen observert i den menneskelige hjernen, der forskjellige nevrale kretser opererer med forskjellige hastigheter, beslektet med hjernebølger.

Som forskningsartikkelen sier,”NL avslører at eksisterende dyplæringsmetoder lærer av data gjennom å komprimere sin egen kontekstflyt, og forklarer hvordan læring i kontekst tillater seg i en stor grad av læring,

.”noen deler av modellen kan raskt tilpasse seg ny informasjon, mens andre konsoliderer kunnskap saktere.

En kjerneinnsikt i Nested Learning er dens re-framing av standard maskinlæringskomponenter som former for assosiativt minne. Artikkelen demonstrerer at selve tilbakepropageringsprosessen kan modelleres som et assosiativt minne som lærer å kartlegge et datapunkt til dets”lokale overraskelsessignal”, som er feilen eller gradienten.

Dette signalet kvantifiserer hvor uventet dataene er. Videre tolker rammeverket vanlige optimerere, som Adam eller SGD med Momentum, som”Deep Optimizers.”

Dette er i hovedsak minnemoduler som lærer å komprimere historien til tidligere gradienter for å informere om fremtidige oppdateringer, i stedet for bare å være statiske matematiske formler.

Mens konseptet med læring har dypere bunn i forskningen. Google-teamet selv siterer grunnleggende arbeid fra tidlig på 1990-tallet, inkludert et papir fra 1992 av Jürgen Schmidhuber om nevrale nettverk som teoretisk kan endre sine egne læringsregler.

Nested Learning tar sikte på å gi et praktisk og sammenhengende rammeverk for endelig å realisere disse langvarige teoretiske ambisjonene, og skape en klar vei mot modeller som virkelig kan lære å lære.

Hope on the Horizon: A Self-Modifying AI that Learns How to wing brain the human-prosess

Hope er et selvmodifiserende system bygget som en variant av Googles tidligere”Titans”-arkitektur, en minnemodul som prioriterer informasjon basert på hvor”overraskende”den er.

“Hope er imidlertid en selvmodifiserende,-tilbakevendende arkitektur som kan dra nytte av ubegrensede nivåer av læring i kontekst…”

Den oppnår dette gjennom et Continuum Memory System (CMS), der forskjellige minnekomponenter oppdateres med forskjellige frekvenser. Dette skaper et spekter fra rask oppdatering, korttidsminne til langsom oppdatering, langsiktig kunnskapslagring.

Denne lagdelte tilnærmingen lar modellen i hovedsak lære å lære, et betydelig skritt utover statiske modeller. Det betyr at hvis du kan få en del av stabelen til å optimalisere seg selv, kommer den til å skalere med beregning og dermed utkonkurrere alt du kan gjøre for hånd til slutt.

Begrepet selvmodifisering har skapt spenning, men noen eksperter advarer mot overtolkning. I stedet for å bokstavelig talt omskrive kildekoden, justerer modellen sine interne parametere ved forskjellige hastigheter.

Det er ingen”indre stemme”som inspiserer seg selv eller bokstavelig talt omskriver sin egen kildekode. Det er i utgangspunktet et system laget av deler som lærer med forskjellige hastigheter. Dette gjør det mulig å integrere nye fakta uten å overskrive kjernekunnskap.

Lovende resultater og dvelende spørsmål

Innledende benchmarks for Hope-arkitekturen, som beskrevet i NeurIPS-artikkelen, er lovende på tvers av flere modellstørrelser. Forskerteamet testet 340M, 760M og 1,3B parameterversjoner av Hope mot moderne modeller som Transformer++, Retentive_blank=”Target=”Target=”Tentive. (RetNet), og Titans.

I språkmodellering og sunn fornuftsoppgaver viste Hope konsekvent sterke resultater. For eksempel oppnådde 1.3B-parametermodellen, trent på 100 milliarder tokens, en gjennomsnittlig referansepoengsum på 57.23, og overgikk de sammenlignbare Transformer++ (52.25) og Titans (56.82)-modellene.

Den viste lavere PIQA,

Oppgaven fremhever også Hopes overlegne minneadministrasjonsevner, spesielt i langkontekst Needle-In-Haystack (NIAH)-oppgaver, der en modell må finne et spesifikt stykke informasjon innenfor et stort volum av teksten til forfatteren

denne suksessen.

Continuum Memory System (CMS), som muliggjør en mer effektiv og effektiv måte å håndtere utvidede sekvenser av informasjon på.

Denne evnen til dynamisk å administrere minne og oppdatere læring basert på kontekst er det som skiller arkitekturen fra mer statiske modeller som standard Transformers.

Til tross for disse sterke første resultatene, er en viss grad av begrenset skepsis berettiget til den primære tilgjengelige dataen i empirisk informasjon. papir.

Forfatterne bemerker i selve papiret at NeurIPS-versjonen ble”omfattende oppsummert for å passe til sidegrensen”og leder leserne til en mer omfattende versjon på arXiv for fullstendige detaljer. 

Tilnærmingen er spennende, men Googlee-artikkelen er også ganske kort på empiriske resultater.

Dette fremhever et kritisk gap mellom det teoretiske løftet og den verifiserbare ytelsen til den nye arkitekturen. Vi må vente på de detaljerte resultatene, spesielt på oppgavene med lang kontekst der lignende innovative arkitekturer tidligere har slitt med å skalere effektivt, før vi erklærer Nested Learning som et ekte gjennombrudd.