A Google Research 2025. november 7-én bemutatta a Nested Learning nevű új gépi tanulási paradigmát, amely a mesterséges intelligencia-modellek katasztrofális felejtésének megoldására szolgál.
Ez a régóta fennálló probléma arra készteti a modelleket, hogy az új információk megtanulásakor eltöröljék a régi tudást. A koncepció bizonyítékaként a csapat felfedte a „Reményt”, egy önmódosító architektúrát, amely folyamatosan tanulhat és alkalmazkodhat.
Az új módszer az AI-t nem egyetlen programként kezeli, hanem beágyazott tanulási folyamatok rendszereként, amelyek különböző sebességgel frissülnek. Ez a megközelítés az emberi memória működését utánozza, és dinamikusabb és hatékonyabb mesterségesintelligencia-rendszerek létrehozását célozza meg, amelyek idővel javulhatnak anélkül, hogy a semmiből kellene állandóan átképzéseket végezni.
A Chaastrocnsia of AI-nak legyőzése. Elfelejtés
Sok fejlett AI-modell alapvető gyengesége, hogy képtelenek szekvenciálisan tanulni. Amikor egy neurális hálózatot új adatokra oktatnak, gyakran hirtelen és drasztikusan elfelejti az általa korábban elsajátított információkat.
Ez a katasztrofális felejtés vagy katasztrofális interferencia néven ismert jelenség komoly akadálya annak, hogy olyan mesterséges intelligenciát hozzanak létre, amely valóban fejlődhet új tapasztalatokkal, mióta a kutatók először azonosították az 1980-as évek végén. href=”https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2013.00504/full”target=”_blank”>„stabilitás-plaszticitás dilemma”. Egy hatékony tanulási rendszernek elég képlékenynek kell lennie ahhoz, hogy új ismereteket szerezzen, ugyanakkor elég stabilnak kell lennie ahhoz, hogy megakadályozza, hogy az új tudás felülírja a meglévő emlékeket.
A legtöbb szabványos neurális hálózat, különösen a visszaterjesztést használók, erősen képlékenyek. Belső paramétereik vagy súlyaik úgy vannak beállítva, hogy minimálisra csökkentsék az új feladatoknál előforduló hibákat.
Azonban mivel ezek a hálózatok elosztott reprezentációkat használnak, ahol a tudást a megosztott súlyok széles skáláján tárolják. Ezeknek a súlyoknak az új feladathoz való frissítése elkerülhetetlenül megzavarja a régi információk felidézéséhez szükséges mintákat.
Katasztrofális felejtés történik, amikor a zavartság fokozódása során olyan paraméterek, amelyeknek nem kellene mozogniuk, megrázódnak egy hirtelen nagy gradiens hatására. Ez a folyamat hatékonyan egymásra helyezi az új adatokat a régiek fölé, ami az eredeti tanulás drasztikus és gyakran teljes elvesztéséhez vezet.
Ez a korlátozás erős ellentétben áll az emberi tanulással, amely jellemzően inkább fokozatos felejtéssel jár, semmint a készségek vagy ismeretek hirtelen törlésével.
A Google közleménye erőteljes analógiát vonhat le az anterográd neurológiai állapothoz, ahol egy személy új neurológiai állapotot hoz létre. A jelenlegi nagy nyelvi modellek (LLM-ek) hasonlóan korlátozottak; tudásuk a képzés előtti hatalmas adatokra és a kontextusablakba betáplált azonnali információkra korlátozódik.
Nem tudnak új tapasztalatokat integrálni alapvető tudásbázisukba. Ahogy a Google Research blog is kijelenti: „Amikor a folyamatos tanulásról és önfejlesztésről van szó, az emberi agy az arany standard.”
Ez az akadály nem csupán elméleti kellemetlenség; ez egy jelentős gyakorlati akadály, amely megakadályozza, hogy a mesterséges intelligencia alkalmazkodjon a dinamikus, valós környezetekhez, ahol folyamatosan új információk állnak rendelkezésre.
Beágyazott tanulás: Új paradigma, egyesítő architektúra és optimalizálás
A mesterséges intelligencia egyik legmaradandóbb hibájának orvoslására a Google kutatói a tanulási modellek új struktúráját javasolták.
A Nested Learning (NL) elnevezésű paradigma túlmutat a rétegek halmozásának hagyományos nézetén. Ehelyett a modellt nem monolitikus entitásként kezeli, hanem egymáshoz kapcsolódó, többszintű optimalizálási problémák gyűjteményeként, amelyek egyidejűleg futnak.
Ez a megközelítés alapvetően egyesíti a modell architektúráját és betanító algoritmusát, és ugyanazon alapfolyamat különböző „szintjeiként” tekinti őket.
Minden szintnek megvan a maga különálló információs folyama, a beágyazott tanulási folyamat keretein belül, megtanulják a szöveget. től. A saját frekvenciáján frissül. Ezt a kialakítást az emberi agyban megfigyelt többidős feldolgozás ihlette, ahol a különböző idegi áramkörök különböző sebességgel működnek, hasonlóan az agyhullámokhoz.
Amint a kutatási cikk megállapítja, „NL feltárja, hogy a meglévő mély tanulási módszerek a saját kontextusfolyamaik tömörítésén keresztül tanulnak az adatokból, és elmagyarázzák, hogy a kontextuson belüli tanulás hogyan jelenik meg a nagy modellekben.”
Ez lehetővé teszi a szemcsésebb tanulási részek egyes részeit, ahol hatékonyabban alkalmazkodhatunk. gyorsan hozzájutnak az új információkhoz, míg mások lassabban konszolidálják a tudást.
A Nested Learning egyik alapvető felismerése a szabványos gépi tanulási összetevők asszociatív memória formáivá történő újrakeretezése. A tanulmány bemutatja, hogy maga a visszaterjesztési folyamat asszociatív memóriaként modellezhető, amely megtanul egy adatpontot leképezni a „helyi meglepetésjelre”, ami a hiba vagy gradiens.
Ez a jel számszerűsíti, mennyire váratlan az adatok. Továbbmenve, a keretrendszer a gyakori optimalizálókat, például az Adamet vagy az SGD-t a Momentummal „mélyoptimalizálóként” értelmezi.
Ezek alapvetően memóriamodulok, amelyek megtanulják tömöríteni a múltbeli gradiensek történetét, hogy tájékoztassák a jövőbeli frissítésekről, nem pedig statikus matematikai képletek lennének.
Míg a tanulási koncepció újszerű, az AI kutatási koncepciója mélyen gyökerezik. Maga a Google csapata az 1990-es évek eleji alapmunkát idézi, köztük Jürgen Schmidhuber 1992-es tanulmányát a neurális hálózatokról, amelyek elméletileg módosíthatják saját tanulási szabályaikat.
A Nested Learning célja, hogy gyakorlati és koherens keretet biztosítson ezeknek a régóta fennálló elméleti ambícióknak a megvalósításához, világos utat teremtve a modellek felé, amelyek valóban megtanulják, hogyan kell tanulni.
Remény a láthatáron: Önmódosító mesterséges intelligencia, amely megtanulja az emberi agyat, az inspirációt the way feldolgozza a memóriát, a „Hope” architektúra a beágyazott tanulási paradigma első bizonyítékaként szolgál.
A Hope egy önmódosító rendszer, amelyet a Google korábbi „Titans” architektúrájának egy változataként építettek fel, egy memóriamodul, amely aszerint rangsorolja az információkat, hogy mennyire „meglepő” az információ.
Eltérően az önmódosító architektúrától, az önmódosító előzménytől eltérően a kontextuson belüli tanulás határtalan szintjei előnyei…”
Ezt a Continuum Memory System (CMS) segítségével éri el, ahol a különböző memóriakomponensek változó gyakorisággal frissülnek. Ez egy spektrumot hoz létre a gyorsan frissülő, rövid távú memóriától a lassan frissülő, hosszú távú tudástárig.
Ez a többrétegű megközelítés lehetővé teszi a modell számára, hogy lényegében megtanulja a tanulást, ami jelentős lépés a statikus modelleken túl. Ez azt jelenti, hogy ha a verem bármely részét optimalizálni tudja, akkor az skálázódik a számítással, és így végül felülmúl bármit, amit kézzel megtehetne.
Az önmódosítás kifejezés izgalmat keltett, de néhány szakértő óva int a túlértelmezéstől. Ahelyett, hogy szó szerint átírná a forráskódját, a modell különböző sebességgel állítja be a belső paramétereit.
Nincs „belső hang”, amely önmagát vizsgálja vagy szó szerint átírja saját forráskódját. Ez alapvetően egy olyan rendszer, amely különböző sebességgel tanuló alkatrészekből áll. Ez lehetővé teszi az új tények integrálását anélkül, hogy felülírná az alapvető ismereteket.
Ígéretes eredmények és elhúzódó kérdések
A Hope architektúra kezdeti referenciaértékei, amint azt a NeurIPS-dokumentum részletezi, számos modellméret esetében ígéretesek. A kutatócsoport a Hope 340M, 760M és 1.3B paraméteres verzióit tesztelte olyan kortárs modellekkel, mint a Transformer++, és Titans.
A nyelvi modellezés és a józan ésszel kapcsolatos gondolkodási feladatok terén Hope folyamatosan erős teljesítményt nyújtott. Például a 100 milliárd tokenre kiképzett 1,3B paramétermodell átlagosan 57,23-as benchmark pontszámot ért el, felülmúlva a hasonló Transformer++ (52,25) és Titans (56,82) modelleket.
Csekélyebb perplexitást/wikipedia.”> annak mérőszáma, hogy egy modell mennyire jósol egy mintát, és nagyobb pontosságot tesz lehetővé egy olyan tesztcsomagban, mint a PIQA, HellaS,waga href=”https://arxiv.org/abs/1905.10044″target=”_blank”>BoolQ.
A cikk kiemeli a Hope kiváló memóriakezelési képességeit is, különösen a hosszú kontextusú Needle-In-Haystack (NIAH) feladatoknál, ahol a modellnek egy adott információt kell megtalálnia a rendszer sikerének nagy mennyiségű szövegén belül. (CMS), amely hatékonyabb és eredményesebb módot tesz lehetővé kiterjesztett információsorozatok kezelésére.
A memória dinamikus kezelésének és a tanulás kontextuson alapuló frissítésének képessége különbözteti meg az architektúrát az olyan statikusabb modellektől, mint a hagyományos Transformers.
Az erős kezdeti eredmények ellenére bizonyos fokú szkepticizmus indokolt, elsősorban a szerző által rendelkezésre álló korlátozott adatok miatt. maga írja le, hogy a NeurIPS verziót „széles körben összefoglalták, hogy megfeleljen az oldalkorlátnak”, és az olvasókat az arXiv átfogóbb verziójára irányítja a részletekért.
A megközelítés izgalmas, de a Googlee tanulmánya is meglehetősen szűkölködik az empirikus eredményekről.
Ez rávilágít az új architektúra elméleti ígérete és ellenőrizhető teljesítménye közötti kritikus szakadékra. Meg kell várnunk a részletes eredményeket, különösen azoknál a hosszú kontextusú feladatoknál, ahol a hasonló innovatív architektúrák korábban küzdöttek a hatékony méretezésért, mielőtt a Nested Learninget igazi áttörésnek nyilvánítanák.