Google Research noong Nobyembre 7, 2025, ipinakilala ang isang bagong paradigma sa pag-aaral ng machine na tinatawag na Nested Learning, na idinisenyo upang malutas ang sakuna na nakalimutan sa mga modelo ng AI. Bilang isang patunay-ng-konsepto, inihayag ng koponan ang”pag-asa,”isang arkitektura na nagbabago sa sarili na maaaring patuloy na matuto at umangkop. Ang pamamaraang ito ay gayahin kung paano gumagana ang memorya ng tao, na naglalayong lumikha ng mas pabago-bago at mahusay na mga sistema ng AI na maaaring mapabuti sa paglipas ng panahon nang walang patuloy na pag-retraining mula sa simula. Ang pagkalimot
Kapag ang isang neural network ay sinanay sa mga bagong data, madalas itong biglang at drastically nakakalimutan ang impormasyon na dati nang pinagkadalubhasaan. href=”https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2013.00504/full”target=”_ blangko”>”katatagan-plasticity dilemma.” Ang isang epektibong sistema ng pag-aaral ay dapat na sapat na plastik upang makakuha ng bagong kaalaman, ngunit sapat din na matatag upang maiwasan ang bagong kaalaman mula sa pag-overwriting ng mga umiiral na alaala. Ang kanilang mga panloob na mga parameter, o mga timbang, ay nababagay upang mabawasan ang error sa mga bagong gawain. Ang pag-update ng mga timbang na ito para sa isang bagong gawain ay hindi maiiwasang makagambala sa mga pattern na kinakailangan upang maalala ang lumang impormasyon. Ang prosesong ito ay epektibong nagbibigay ng bagong data sa tuktok ng luma, na humahantong sa isang marahas at madalas na kumpletong pagkawala ng orihinal na pag-aaral. Ang kasalukuyang mga malalaking modelo ng wika (LLM) ay katulad na limitado; Ang kanilang kaalaman ay nakakulong sa kanilang malawak na data ng pre-pagsasanay at ang agarang impormasyon na pinapakain sa kanilang window ng konteksto. Tulad ng sinasabi ng Google Research Blog,”Pagdating sa patuloy na pag-aaral at pagpapabuti ng sarili, ang utak ng tao ay ang pamantayang ginto.”
Ang sagabal na ito ay hindi lamang isang teoretikal na abala; Ito ay isang makabuluhang praktikal na balakid na pumipigil sa AI mula sa pag-adapt sa mga dynamic, real-world na kapaligiran kung saan ang bagong impormasyon ay pare-pareho. Ang Paradigm, na tinawag na Nested Learning (NL), ay gumagalaw na lampas sa tradisyonal na pagtingin sa mga layer ng pag-stack. Sa halip, tinatrato nito ang isang modelo hindi bilang isang monolitikong nilalang ngunit bilang isang koleksyon ng magkakaugnay, multi-level na mga problema sa pag-optimize na tumatakbo nang sabay-sabay. Nag-update ito sa sarili nitong dalas. Ang disenyo na ito ay inspirasyon ng pagproseso ng multi-timescale na sinusunod sa utak ng tao, kung saan ang iba’t ibang mga neural circuit ay nagpapatakbo sa iba’t ibang bilis, na katulad ng mga alon ng utak. Kung saan ang ilang mga bahagi ng modelo ay maaaring umangkop nang mabilis sa mga bagong impormasyon habang ang iba ay pinagsama ang kaalaman nang mas mabagal. Ipinapakita ng papel na ang proseso ng backpropagation mismo ay maaaring maging modelo bilang isang memorya ng kaakibat na natututo na mag-mapa ng isang punto ng data sa”lokal na signal ng sorpresa,”na kung saan ay ang pagkakamali o gradient. Pagpunta pa, ang balangkas ay muling nag-i-interpret ng mga karaniwang optimizer, tulad ng ADAM o SGD na may momentum, bilang”malalim na pag-optimizer.”Ang koponan ng Google mismo ay binabanggit ang gawaing pang-batayan mula noong unang bahagi ng 1990, kasama ang isang 1992 na papel ni Jürgen Schmidhuber sa mga neural network na maaaring teoretikal na baguhin ang kanilang sariling mga patakaran sa pag-aaral.
Ang arkitektura ng’Hope’ay nagsisilbing unang patunay-ng-konsepto para sa nested na paradigma ng pag-aaral. Mga antas ng pag-aaral ng in-context…”
Lumilikha ito ng isang spectrum mula sa mabilis na pag-update, panandaliang memorya hanggang sa pagbagal, pag-iimbak ng pangmatagalang kaalaman. Nangangahulugan ito na kung maaari kang magkaroon ng anumang bahagi ng stack na-optimize ang sarili, pupunta ito sa sukat na may compute at sa gayon ay higit pa sa anumang magagawa mo sa kalaunan. Sa halip na literal na muling pagsulat ng source code nito, inaayos ng modelo ang mga panloob na mga parameter nito sa iba’t ibang bilis. Ito ay karaniwang isang sistema na gawa sa mga bahagi na natututo sa iba’t ibang bilis. Pinapayagan nitong isama ang mga bagong katotohanan nang walang pag-overwriting ng pangunahing kaalaman. Sinubukan ng pangkat ng pananaliksik ang 340m, 760m, at 1.3b na mga bersyon ng parameter ng pag-asa laban sa mga kontemporaryong modelo tulad ng transpormer ++ , retentive network (retnet) , at titans . Halimbawa, ang modelo ng parameter na 1.3B, na sinanay sa 100 bilyong mga token, nakamit ang isang average na marka ng benchmark na 57.23, na pinalaki ang maihahambing na transpormer ++ (52.25) at mga titans (56.82) na mga modelo. target=”_ blangko”> pagkalito , isang sukatan kung gaano kahusay ang hinuhulaan ng isang modelo ng isang sample, at mas mataas na kawastuhan sa isang suite ng mga pagsubok kabilang ang piqa , hellaswag , at
Ang diskarte ay kapana-panabik ngunit ang papel ng Googlee ay medyo maikli din sa mga resulta ng empirikal. Kailangan nating maghintay para sa detalyadong mga resulta, lalo na sa mga matagal na konteksto na kung saan ang mga katulad na makabagong arkitektura ay dati nang nagpupumilit na mabisa nang epektibo, bago ipahayag ang nested na pag-aaral ng isang tunay na tagumpay.