Google Research më 7 nëntor 2025 prezantoi një paradigmë të re të mësimit të makinerive të quajtur Nested Learning, e krijuar për të zgjidhur harresat katastrofike në modelet e AI.
Ky problem i kahershëm bën që modelet të fshijnë njohuritë e vjetra kur mësojnë informacione të reja. Si provë e konceptit, ekipi zbuloi”Shpresën”, një arkitekturë vetë-modifikuese që mund të mësojë dhe përshtatet vazhdimisht.
Metoda e re e trajton një AI jo si një program të vetëm, por si një sistem procesesh të mbivendosura të të mësuarit që përditësohen me ritme të ndryshme. Kjo qasje imiton mënyrën se si funksionon kujtesa njerëzore, duke synuar të krijojë sisteme më dinamike dhe efikase të AI që mund të përmirësohen me kalimin e kohës pa rikualifikim të vazhdueshëm nga e para.
Callenstrophnesia e Challenicgesia. Harrimi
Një dobësi thelbësore e shumë modeleve të avancuara të AI është paaftësia e tyre për të mësuar në mënyrë sekuenciale. Kur një rrjet nervor trajnohet për të dhëna të reja, ai shpesh harron papritur dhe në mënyrë drastike informacionin që zotëronte më parë.
Ky fenomen, i njohur si harresa katastrofike ose ndërhyrje katastrofike, ka qenë një pengesë kryesore për krijimin e AI që mund të evoluojë vërtet me përvoja të reja që kur u identifikua për herë të parë nga studiuesit në fund të vitit 19. Shkencëtarët e quajnë “dilemën stabilitet-plasticitet”. Një sistem efektiv mësimi duhet të jetë mjaftueshëm plastik për të përvetësuar njohuri të reja, por edhe mjaftueshëm i qëndrueshëm për të parandaluar që njohuritë e reja të mbishkruajnë kujtimet ekzistuese.
Shumica e rrjeteve nervore standarde, veçanërisht ato që përdorin përhapjen e pasme. Parametrat e tyre të brendshëm, ose peshat, janë rregulluar për të minimizuar gabimet në detyrat e reja.
Megjithatë, sepse këto rrjete përdorin paraqitje të shpërndara, ku njohuritë ruhen në një grup të gjerë peshash të përbashkëta. Përditësimi i këtyre peshave për një detyrë të re në mënyrë të pashmangshme prish modelet e kërkuara për të kujtuar informacionin e vjetër.
Harrimi katastrofik ndodh kur parametrat që nuk duhet të lëvizin, tronditen nga një gradient i madh i papritur kur rritet hutimi. Ky proces në mënyrë efektive mbivendos të dhëna të reja mbi të vjetrat, duke çuar në një humbje drastike dhe shpeshherë të plotë të të mësuarit origjinal.
Ky kufizim është në kontrast të fortë me të mësuarit njerëzor, i cili zakonisht përfshin harresën graduale në vend të një zhdukjeje të papritur të aftësive ose njohurive.
Njoftimi i Google nuk mund të nxjerrë një analogji të re nga një kusht i ri, në terma të gjatë, me një person antero. kujtimet. Modelet aktuale të gjuhëve të mëdha (LLM) janë po aq të kufizuara; njohuritë e tyre kufizohen në të dhënat e tyre të mëdha para-trajnimi dhe informacionin e menjëhershëm të futur në dritaren e kontekstit të tyre.
Ata nuk mund të integrojnë përvoja të reja në bazën e tyre bazë të njohurive. Siç thuhet në blogun e Kërkimit të Google,”Kur bëhet fjalë për të mësuarit e vazhdueshëm dhe vetë-përmirësimin, truri i njeriut është standardi i artë.”
Kjo pengesë nuk është vetëm një shqetësim teorik; është një pengesë e rëndësishme praktike që parandalon AI që të përshtatet me mjediset dinamike të botës reale, ku informacioni i ri është konstant.
Mësimi i ndërlidhur: Një paradigmë e re unifikimi e arkitekturës dhe optimizimit
Për të adresuar një nga të metat më të vazhdueshme të AI, studiuesit e Google kanë ripropozuar një model të kuadrit të të mësuarit.
Paradigma e re, e quajtur Nested Learning (NL), shkon përtej pamjes tradicionale të shtresave të grumbullimit. Në vend të kësaj, ai e trajton një model jo si një entitet monolit, por si një koleksion problemesh optimizimi të ndërlidhura dhe me shumë nivele, që funksionojnë njëkohësisht.
Kjo qasje unifikon në thelb arkitekturën e një modeli dhe algoritmin e tij të trajnimit, duke i parë ato si”nivele”të ndryshme të të njëjtit proces thelbësor.
Nivelet e veta të të mësuarit ka ndarë në kuadrin e tij Neekst:”Çdo nivel mësimor në rrjedhën e tij të veçantë. rrjedha specifike e informacionit nga e cila mëson. Përditësohet me frekuencën e vet. Ky dizajn është i frymëzuar nga përpunimi në shkallë shumë-kohore i vëzhguar në trurin e njeriut, ku qarqet e ndryshme nervore veprojnë me shpejtësi të ndryshme, të ngjashme me valët e trurit.
Siç thuhet në dokumentin kërkimor,”NL zbulon se metodat ekzistuese të të mësuarit të thellë mësojnë nga të dhënat përmes kompresimit të rrjedhës së tyre të kontekstit dhe shpjegon se si ky mësim në kontekst shfaqet në një formë më efikase të të mësuarit, ku më shumë modele të mëdha> dhe më efikase”. pjesë të modelit mund të përshtaten shpejt me informacionin e ri, ndërsa të tjerët konsolidojnë njohuritë më ngadalë.
Një pasqyrë thelbësore e Nested Learning është ri-korniza e tij e komponentëve standardë të mësimit të makinerive si forma të memorie shoqëruese
Ky sinjal përcakton se sa të papritura janë të dhënat. Për të shkuar më tej, korniza riinterpreton optimizuesit e zakonshëm, si Adam ose SGD me Momentum, si”Optimizues të thellë”.
Këto janë në thelb module memorie që mësojnë të kompresojnë historinë e gradientëve të kaluar për të informuar përditësimet e ardhshme, në vend që të jenë thjesht formula matematikore statike.
Ndërsa koncepti i të mësuarit AI nuk është rrënjësor në vetvete. kërkimore. Vetë ekipi i Google citon punën themelore nga fillimi i viteve 1990, duke përfshirë një punim të vitit 1992 nga Jürgen Schmidhuber mbi rrjetet nervore që mund të modifikojnë teorikisht rregullat e tyre të të mësuarit.
Nested Learning synon të ofrojë një kornizë praktike dhe koherente për të realizuar më në fund këto ambicie teorike të mbajtura prej kohësh, duke krijuar një rrugë të qartë drejt modeleve që mund të mësojnë vërtet se si të mësojnë.