Google Research më 7 nëntor 2025 prezantoi një paradigmë të re të mësimit të makinerive të quajtur Nested Learning, e krijuar për të zgjidhur harresat katastrofike në modelet e AI.

Ky problem i kahershëm bën që modelet të fshijnë njohuritë e vjetra kur mësojnë informacione të reja. Si provë e konceptit, ekipi zbuloi”Shpresën”, një arkitekturë vetë-modifikuese që mund të mësojë dhe përshtatet vazhdimisht.

Metoda e re e trajton një AI jo si një program të vetëm, por si një sistem procesesh të mbivendosura të të mësuarit që përditësohen me ritme të ndryshme. Kjo qasje imiton mënyrën se si funksionon kujtesa njerëzore, duke synuar të krijojë sisteme më dinamike dhe efikase të AI që mund të përmirësohen me kalimin e kohës pa rikualifikim të vazhdueshëm nga e para.

Callenstrophnesia e Challenicgesia. Harrimi

Një dobësi thelbësore e shumë modeleve të avancuara të AI është paaftësia e tyre për të mësuar në mënyrë sekuenciale. Kur një rrjet nervor trajnohet për të dhëna të reja, ai shpesh harron papritur dhe në mënyrë drastike informacionin që zotëronte më parë.

Ky fenomen, i njohur si harresa katastrofike ose ndërhyrje katastrofike, ka qenë një pengesë kryesore për krijimin e AI që mund të evoluojë vërtet me përvoja të reja që kur u identifikua për herë të parë nga studiuesit në fund të vitit 19. Shkencëtarët e quajnë “dilemën stabilitet-plasticitet”. Një sistem efektiv mësimi duhet të jetë mjaftueshëm plastik për të përvetësuar njohuri të reja, por edhe mjaftueshëm i qëndrueshëm për të parandaluar që njohuritë e reja të mbishkruajnë kujtimet ekzistuese.

Shumica e rrjeteve nervore standarde, veçanërisht ato që përdorin përhapjen e pasme. Parametrat e tyre të brendshëm, ose peshat, janë rregulluar për të minimizuar gabimet në detyrat e reja.

Megjithatë, sepse këto rrjete përdorin paraqitje të shpërndara, ku njohuritë ruhen në një grup të gjerë peshash të përbashkëta. Përditësimi i këtyre peshave për një detyrë të re në mënyrë të pashmangshme prish modelet e kërkuara për të kujtuar informacionin e vjetër.

Harrimi katastrofik ndodh kur parametrat që nuk duhet të lëvizin, tronditen nga një gradient i madh i papritur kur rritet hutimi. Ky proces në mënyrë efektive mbivendos të dhëna të reja mbi të vjetrat, duke çuar në një humbje drastike dhe shpeshherë të plotë të të mësuarit origjinal.

Ky kufizim është në kontrast të fortë me të mësuarit njerëzor, i cili zakonisht përfshin harresën graduale në vend të një zhdukjeje të papritur të aftësive ose njohurive.

Njoftimi i Google nuk mund të nxjerrë një analogji të re nga një kusht i ri, në terma të gjatë, me një person antero. kujtimet. Modelet aktuale të gjuhëve të mëdha (LLM) janë po aq të kufizuara; njohuritë e tyre kufizohen në të dhënat e tyre të mëdha para-trajnimi dhe informacionin e menjëhershëm të futur në dritaren e kontekstit të tyre.

Ata nuk mund të integrojnë përvoja të reja në bazën e tyre bazë të njohurive. Siç thuhet në blogun e Kërkimit të Google,”Kur bëhet fjalë për të mësuarit e vazhdueshëm dhe vetë-përmirësimin, truri i njeriut është standardi i artë.”

Kjo pengesë nuk është vetëm një shqetësim teorik; është një pengesë e rëndësishme praktike që parandalon AI që të përshtatet me mjediset dinamike të botës reale, ku informacioni i ri është konstant.

Mësimi i ndërlidhur: Një paradigmë e re unifikimi e arkitekturës dhe optimizimit

Për të adresuar një nga të metat më të vazhdueshme të AI, studiuesit e Google kanë ripropozuar një model të kuadrit të të mësuarit.

Paradigma e re, e quajtur Nested Learning (NL), shkon përtej pamjes tradicionale të shtresave të grumbullimit. Në vend të kësaj, ai e trajton një model jo si një entitet monolit, por si një koleksion problemesh optimizimi të ndërlidhura dhe me shumë nivele, që funksionojnë njëkohësisht.

Kjo qasje unifikon në thelb arkitekturën e një modeli dhe algoritmin e tij të trajnimit, duke i parë ato si”nivele”të ndryshme të të njëjtit proces thelbësor.

Nivelet e veta të të mësuarit ka ndarë në kuadrin e tij Neekst:”Çdo nivel mësimor në rrjedhën e tij të veçantë. rrjedha specifike e informacionit nga e cila mëson. Përditësohet me frekuencën e vet. Ky dizajn është i frymëzuar nga përpunimi në shkallë shumë-kohore i vëzhguar në trurin e njeriut, ku qarqet e ndryshme nervore veprojnë me shpejtësi të ndryshme, të ngjashme me valët e trurit.

Siç thuhet në dokumentin kërkimor,”NL zbulon se metodat ekzistuese të të mësuarit të thellë mësojnë nga të dhënat përmes kompresimit të rrjedhës së tyre të kontekstit dhe shpjegon se si ky mësim në kontekst shfaqet në një formë më efikase të të mësuarit, ku më shumë modele të mëdha> dhe më efikase”. pjesë të modelit mund të përshtaten shpejt me informacionin e ri, ndërsa të tjerët konsolidojnë njohuritë më ngadalë.

Një pasqyrë thelbësore e Nested Learning është ri-korniza e tij e komponentëve standardë të mësimit të makinerive si forma të memorie shoqëruese

Ky sinjal përcakton se sa të papritura janë të dhënat. Për të shkuar më tej, korniza riinterpreton optimizuesit e zakonshëm, si Adam ose SGD me Momentum, si”Optimizues të thellë”.

Këto janë në thelb module memorie që mësojnë të kompresojnë historinë e gradientëve të kaluar për të informuar përditësimet e ardhshme, në vend që të jenë thjesht formula matematikore statike.

Ndërsa koncepti i të mësuarit AI nuk është rrënjësor në vetvete. kërkimore. Vetë ekipi i Google citon punën themelore nga fillimi i viteve 1990, duke përfshirë një punim të vitit 1992 nga Jürgen Schmidhuber mbi rrjetet nervore që mund të modifikojnë teorikisht rregullat e tyre të të mësuarit.

Nested Learning synon të ofrojë një kornizë praktike dhe koherente për të realizuar më në fund këto ambicie teorike të mbajtura prej kohësh, duke krijuar një rrugë të qartë drejt modeleve që mund të mësojnë vërtet se si të mësojnë.

Shpresa në Horizont: Një UA Vetë-Modifikuese që mëson se si të mësojë truri i njeriut

përpunon kujtesën, arkitektura”Shpresa”shërben si prova e parë e konceptit për paradigmën e të mësuarit të ndërlidhur.

Shpresa është një sistem vetë-modifikues i ndërtuar si një variant i arkitekturës së mëparshme”Titans”të Google, një modul memorie që i jep përparësi informacionit bazuar në atë se sa”çuditshëm”është, megjithatë,”Hope, sidoqoftë, është paraprakisht e tij”.

Arkitekturë e përsëritur vetë-modifikuese që mund të përfitojë nga nivelet e pakufizuara të të mësuarit në kontekst…”

Ai e arrin këtë nëpërmjet një sistemi memorie të vazhdueshme (CMS), ku komponentë të ndryshëm të memories përditësohen në frekuenca të ndryshme. Kjo krijon një spektër nga përditësimi i shpejtë, memoria afatshkurtër deri tek përditësimi i ngadalshëm dhe ruajtja afatgjatë e njohurive.

Kjo qasje e shtresuar i lejon modelit të mësojë në thelb se si të mësojë, një hap i rëndësishëm përtej modeleve statike. Kjo do të thotë që nëse mund të bëni ndonjë pjesë të pirgut të optimizohet vetë, ai do të shkallëzohet me llogaritje dhe kështu do të jetë më i mirë se çdo gjë që mund të bëni me dorë përfundimisht.

Termi vetë-modifikim ka krijuar emocione, por disa ekspertë paralajmërojnë kundër interpretimit të tepërt. Në vend që të rishkruajë fjalë për fjalë kodin e tij burimor, modeli rregullon parametrat e tij të brendshëm me shpejtësi të ndryshme.

Nuk ka asnjë”zë të brendshëm”që inspekton vetveten ose fjalë për fjalë rishkruan kodin e tij burimor. Në thelb është një sistem i përbërë nga pjesë që mësojnë me shpejtësi të ndryshme. Kjo e lejon atë të integrojë fakte të reja pa mbishkrimin e njohurive thelbësore.

Rezultatet premtuese dhe pyetjet e zgjatura

Kapelet fillestare për arkitekturën Hope, siç detajohen në letrën NeurIPS, janë premtuese në disa madhësi modelesh. Ekipi hulumtues testoi versione të parametrave 340M, 760M dhe 1.3B të Hope kundrejt modeleve bashkëkohore si Transformer++, Retentive Network (RetNet) dhe Titans.

Në modelimin e gjuhës dhe detyrat e arsyetimit me sens të përbashkët, Hope demonstroi vazhdimisht performancë të fortë. Për shembull, modeli i parametrave 1.3B, i trajnuar në 100 miliardë tokena, arriti një rezultat mesatar standard prej 57.23, duke tejkaluar modelet e krahasueshme Transformer++ (52.25) dhe Titans (56.82).

Ai tregoi perplaksia, një masë se sa mirë një model parashikon një mostër dhe saktësi më të lartë në një grup testesh duke përfshirë PIQA, HellaSwag dhe BoolQ.

Dokumenti thekson gjithashtu aftësitë superiore të menaxhimit të memories Hope, veçanërisht në kontekstin e gjatë, ku duhet gjetur një model i caktuar i gjilpërës (aN-aHay) informacion brenda një vëllimi të madh teksti.

Autorët ia atribuojnë këtë sukses Sistemit të Memories Continuum (CMS), i cili lejon një mënyrë më efikase dhe efektive për të trajtuar sekuencat e zgjeruara të informacionit.

Kjo aftësi për të menaxhuar në mënyrë dinamike kujtesën dhe për të përditësuar mësimin bazuar në kontekst është ajo që e dallon arkitekturën nga modelet më statike, si këta transformatorë standardë të shkallës së fortë dhe spike të shkallës fillestare

. justifikuar, kryesisht për shkak të të dhënave të kufizuara empirike të ofruara në punimin e disponueshëm publikisht.

Autorët vënë në dukje në vetë punimin se versioni NeurIPS ishte”përmbledhur gjerësisht për t’iu përshtatur kufirit të faqes”dhe i drejton lexuesit në një version më gjithëpërfshirës në arXiv për detaje të plota. 

Qasja është emocionuese, por dokumenti i Googlee është gjithashtu mjaft i shkurtër në rezultatet empirike.

Kjo nxjerr në pah një hendek kritik midis premtimit teorik dhe performancës së verifikueshme të arkitekturës së re. Ne do të duhet të presim për rezultatet e detajuara, veçanërisht për detyrat me kontekst të gjatë, ku arkitektura të ngjashme inovative më parë kanë luftuar për t’u shkallëzuar në mënyrë efektive, përpara se të shpallim Nested Learning një përparim të vërtetë.

Categories: IT Info