Google Research esitteli 7. marraskuuta 2025 uuden koneoppimisparadigman nimeltä Nested Learning, joka on suunniteltu ratkaisemaan tekoälymallien katastrofaalista unohtamista.

Tämä pitkäaikainen ongelma saa mallit pyyhkimään vanhaa tietoa oppiessaan uutta tietoa. Todisteeksi konseptista tiimi paljasti”Toivon”, itsemuovautuvan arkkitehtuurin, joka voi jatkuvasti oppia ja mukautua.

Uusi menetelmä ei käsittele tekoälyä yhtenä ohjelmana, vaan sisäkkäisten oppimisprosessien järjestelmänä, joka päivittyy eri nopeuksilla. Tämä lähestymistapa jäljittelee ihmisen muistin toimintaa ja pyrkii luomaan dynaamisempia ja tehokkaampia tekoälyjärjestelmiä, jotka voivat kehittyä ajan myötä ilman jatkuvaa uudelleenkoulutusta tyhjästä.

Overcoming AI Catastrochillenge: The Catastroccille Unohtaminen

Monien kehittyneiden tekoälymallien perustavanlaatuinen heikkous on niiden kyvyttömyys oppia peräkkäin. Kun hermoverkkoa koulutetaan käyttämään uutta dataa, se unohtaa usein äkillisesti ja rajusti aiemmin hallitsemansa tiedot.

Tämä ilmiö, joka tunnetaan katastrofaalisena unohtamisena tai katastrofaalisena häiriönä, on ollut merkittävä este luotaessa tekoälyä, joka voi todella kehittyä uusien kokemusten myötä, koska tutkijat tunnistivat sen ensimmäisen kerran 1980-luvun lopulla. href=”https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2013.00504/full”target=”_blank”>”vakauden ja plastisuuden dilemma”. Tehokkaan oppimisjärjestelmän on oltava riittävän plastinen uuden tiedon hankkimiseksi, mutta myös riittävän vakaa, jotta se ei korvaa olemassa olevia muistoja.

Useimmat tavalliset hermoverkot, erityisesti takaisin etenemistä käyttävät, ovat erittäin plastisia. Niiden sisäiset parametrit tai painot on säädetty uusien tehtävien virheiden minimoimiseksi.

Kuitenkin, koska nämä verkot käyttävät hajautettuja esityksiä, joissa tieto tallennetaan laajaan joukkoon jaettuja painoja. Näiden painojen päivittäminen uutta tehtävää varten häiritsee väistämättä kuvioita, joita tarvitaan vanhojen tietojen palauttamiseen.

Katastrofaalinen unohtaminen tapahtuu, kun parametrit, joiden ei pitäisi liikkua, tärisevät äkillisen suuren gradientin seurauksena, kun hämmennys lisääntyy. Tämä prosessi lisää tehokkaasti uutta dataa vanhan päälle, mikä johtaa alkuperäisen oppimisen rajuun ja usein täydelliseen menettämiseen.

Tämä rajoitus on jyrkästi ristiriidassa ihmisen oppimisen kanssa, joka tyypillisesti sisältää pikemminkin asteittaista unohtamista kuin äkillistä taitojen tai tietojen pyyhkimistä.

Googlen ilmoitus ei voi vetää voimakasta analogiaa anterogradiseen neurologiseen tilaan, jossa henkilöllä on pitkäaikainen neurologinen amnesia. Nykyiset suuret kielimallit (LLM) ovat samoin rajallisia; heidän tietämyksensä rajoittuu heidän valtavaan esikoulutustietoihinsa ja heidän kontekstiikkunaansa syötettyyn välittömään tietoon.

He eivät voi integroida uusia kokemuksia ydintietokantaansa. Kuten Google Research-blogissa todetaan:”Jatkuvassa oppimisessa ja itsensä kehittämisessä ihmisaivot ovat kultainen standardi.”

Tämä este ei ole vain teoreettinen haitta. se on merkittävä käytännön este, joka estää tekoälyä sopeutumasta dynaamisiin, reaalimaailman ympäristöihin, joissa uutta tietoa on jatkuvasti.

Sisäkkäinen oppiminen: Uusi paradigma, joka yhdistää arkkitehtuuria ja optimointia

Korjatakseen yhden tekoälyn pysyvimmistä puutteista Googlen tutkijat ovat ehdottaneet uutta oppimismallien rakennetta

ipiin. Paradigma, nimeltään Nested Learning (NL), ylittää perinteisen tasojen pinoamisen. Sen sijaan se ei käsittele mallia monoliittisena kokonaisuutena, vaan kokoelmana toisiinsa liittyviä, monitasoisia optimointiongelmia, jotka suoritetaan samanaikaisesti.

Tämä lähestymistapa yhdistää mallin arkkitehtuurin ja sen harjoitusalgoritmin perusteellisesti katsoen ne saman ydinprosessin eri”tasoina”.

Jokaisella tasolla on oma erillinen tietovirta sisäkkäisen oppimisen”context”-kehyksen sisällä. alkaen. Se päivittyy omalla taajuudellaan. Tämä suunnittelu on saanut inspiraationsa ihmisen aivoissa havaitusta moniaikaisesta prosessoinnista, jossa eri hermopiirit toimivat eri nopeuksilla, mikä muistuttaa aivoaaltoja.

Kuten tutkimuspaperissa todetaan,”NL paljastaa, että olemassa olevat syväoppimismenetelmät oppivat tiedosta pakkaamalla omaa kontekstivirtaansa ja selittävät, kuinka kontekstin sisäinen oppiminen syntyy suurissa malleissa.”nopeasti uuteen tietoon, kun taas toiset vahvistavat tietoa hitaammin.

Nested Learningin ydinkäsitys on sen standardien koneoppimiskomponenttien uudelleenkehystäminen assosiatiivisen muistin muodoiksi. Paperi osoittaa, että itse backpropagation prosessi voidaan mallintaa assosiatiivisena muistina, joka oppii yhdistämään datapisteen sen”paikalliseen yllätyssignaaliin”, joka on virhe tai gradientti.

Tämä signaali kvantifioi kuinka odottamaton data on. Jatkossa kehys tulkitsee yleiset optimoijat, kuten Adam tai SGD ja Momentum, uudelleen”syväoptimoijiksi”.

Nämä ovat pääasiassa muistimoduuleja, jotka oppivat pakkaamaan aiempien gradienttien historiaa tulevien päivitysten saamiseksi sen sijaan, että ne olisivat staattisia matemaattisia kaavoja.

Vaikka oppimisen konsepti on syvällinen tutkimuksessa. Google-tiimi itse mainitsee perustavanlaatuisen työn 1990-luvun alusta, mukaan lukien Jürgen Schmidhuberin vuonna 1992 julkaisema asiakirja neuroverkoista, jotka voisivat teoreettisesti muuttaa heidän omia oppimissääntöjään.

Nested Learning pyrkii tarjoamaan käytännölliset ja johdonmukaiset puitteet näiden pitkäaikaisten teoreettisten tavoitteiden toteuttamiselle ja luomalla selkeän polun kohti malleja, jotka voivat aidosti oppia oppimaan.

Toivoa horisontissa: Itseä muokkaava tekoäly, joka oppii ihmisen aivot inspiraation kauttarawing>. Prosessoi muistia, Hope-arkkitehtuuri toimii ensimmäisenä konseptin todisteena Nested Learning-paradigmalle.

Hope on itsemuovautuva järjestelmä, joka on rakennettu muunnelmana Googlen aikaisemmasta”Titans”-arkkitehtuurista. Se on muistimoduuli, joka priorisoi tiedot sen mukaan, kuinka”yllättävää”se on.

Toisin kuin sen edeltäjä arkkitehtuuri voi kuitenkin ottaa itseään muokattavaksi. etu kontekstissa tapahtuvan oppimisen rajattomasta tasosta…”

Se saavutetaan Continuum Memory System (CMS)-muistijärjestelmän avulla, jossa eri muistikomponentit päivittyvät eri taajuuksilla. Tämä luo kirjon nopeasti päivittyvästä lyhytaikaisesta muistista hitaasti päivittyvään, pitkän aikavälin tiedon varastointiin.

Tämä kerrostettu lähestymistapa mahdollistaa sen, että malli oppii olennaisesti oppimaan, mikä on merkittävä askel staattisia malleja pidemmälle. Se tarkoittaa, että jos voit saada jonkin osan pinosta optimoimaan itsensä, se skaalautuu laskennan avulla ja ylittää siten lopulta kaiken, mitä voisit tehdä käsin.

Termi itsemuokkaus on herättänyt jännitystä, mutta jotkut asiantuntijat varovat liiallisesta tulkinnasta. Sen sijaan, että malli kirjoittaisi kirjaimellisesti uudelleen lähdekoodinsa, se säätää sisäisiä parametrejaan eri nopeuksilla.

Ei ole”sisäistä ääntä”, joka tarkastaa itseään tai kirjoittaa kirjaimellisesti uudelleen omaa lähdekoodiaan. Se on pohjimmiltaan järjestelmä, joka koostuu osista, jotka oppivat eri nopeuksilla. Tämän ansiosta se voi integroida uusia faktoja ilman ydintiedon korvaamista.

Lupaavia tuloksia ja viivytteleviä kysymyksiä

NeurIPS-paperissa kuvatut Hope-arkkitehtuurin alustavat vertailuarvot ovat lupaavia useissa eri mallikoissa. Tutkimusryhmä testasi Hopen 340M-, 760M-ja 1.3B-parametriversioita nykyaikaisiin malleihin, kuten Transformer++, Reative Networkiin. (RetNet) ja Titanit.

Kielen mallintamisessa ja terveen järjen päättelytehtävissä Hope osoitti jatkuvasti vahvaa suorituskykyä. For example, the 1.3B parameter model, trained on 100 billion tokens, achieved an average benchmark score of 57.23, outperforming the comparable Transformer++ (52.25) and Titans (56.82) models.

It showed lower perplexity, mitta siitä, kuinka hyvin malli ennustaa näytteen, ja parempaa tarkkuutta testisarjassa, mukaan lukien PIQA, HellaS jawag href=”https://arxiv.org/abs/1905.10044″target=”_blank”>BoolQ.

Kirjoituksessa korostetaan myös Hopen ylivertaisia muistinhallintaominaisuuksia, erityisesti pitkien kontekstien Needle-In-Haystack (NIAH)-tehtävissä, joissa mallin on löydettävä tietty tieto tämän järjestelmän Memoryn määritteen perusteella

suuresta tekstimäärästä. (CMS), joka mahdollistaa tehokkaamman ja tehokkaamman tavan käsitellä laajennettuja tietosarjoja.

Tämä kyky hallita muistia dynaamisesti ja päivittää oppimista kontekstin perusteella erottaa arkkitehtuurin staattisemmista malleista, kuten vakiomuuntajista.

Näistä vahvoista alkutuloksista huolimatta tietynlainen skeptisyys on perusteltua, mikä johtuu ensisijaisesti julkisessa empiirisesti saatavilla olevan tiedon rajallisuudesta

. kertoo itse, että NeurIPS-versio on”laajasti yhteenveto sivurajaan sopivaksi”ja ohjaa lukijat arXivin kattavampaan versioon saadakseen täydelliset tiedot. 

Lähestymistapa on jännittävä, mutta Googlee-paperissa on myös melko vähän empiirisiä tuloksia.

Tämä korostaa kriittistä aukkoa uuden arkkitehtuurin teoreettisen lupauksen ja todennettavissa olevan suorituskyvyn välillä. Meidän on odotettava yksityiskohtaisia ​​tuloksia varsinkin pitkän kontekstin tehtävistä, joissa samankaltaisten innovatiivisten arkkitehtuurien on aiemmin ollut vaikeuksia skaalata tehokkaasti, ennen kuin julistetaan Nested Learning todellinen läpimurto.

Categories: IT Info