TL;DR

A lényeg: A Google Research bemutatta a Titanst, egy új neurális architektúrát, amely tesztidős képzést használ, hogy a modellek valós időben tanuljanak meg és memorizálják az adatokat a következtetések levonása során. Főbb jellemzők: Az architektúra hatékony visszahívást tesz lehetővé a 2 millió tokent meghaladó kontextusablakok esetén, jelentősen felülmúlva a GPT-4-et a BABILong benchmark lekérési feladatoknál. Miért számít: A Titans megoldja a visszatérő neurális hálózatok (RNN-ek) katasztrofális elfelejtését és a Transformers négyzetes költségeit a paraméterek aktív frissítésével, hogy minimalizálja az új adatok meglepetését. A kompromisszum: Noha számításilag nehezebb, mint az IBM Granite-hoz hasonló statikus következtetési modellek, a Titans kiváló kifejezőképességet kínál olyan összetett feladatokhoz, mint a jogi felfedezés vagy a genomi elemzés.

A Google Research bemutatta a „Titans” új neurális architektúrát, amely megkérdőjelezi a jelenlegi AI-modellek alapvető merevségét azáltal, hogy lehetővé teszi számukra, hogy „megtanuljanak memorizálni” a hagyományos

valós időben. statikus súlyokon vagy visszatérő neurális hálózatokon (RNN), amelyek rögzített állapotú lecsengést használnak, a Titans „Neurális memória” modult alkalmaz. Ez az összetevő aktívan frissíti saját paramétereit az adatfolyamok beérkezésekor, hatékonyan kezelve a környezeti ablakot folyamatos betanítási hurokként, nem pedig statikus pufferként.

A hatékony visszahívást a 2 millió tokent meghaladó kontextusablakok esetén az architektúra jelentősen felülmúlja a GPT-4-nél a BABILong benchmarkon. Ez a „tű a szénakazalban” teszt kihívást jelent a modelleknek, hogy specifikus adatpontokat gyűjtsenek le kiterjedt dokumentumokból, ami olyan feladat, ahol a szabványos modellek gyakran kudarcot vallanak.

Promóció

A „Neurális memória” paradigmaváltás

A jelenlegi mesterséges intelligencia architektúrák alapvető kompromisszumokkal szembesülnek a környezeti hossz és a számítási hatékonyság között. A transzformátorok, a GPT-4 és a Claude modelljei mögött uralkodó architektúra olyan figyelemmechanizmusra támaszkodik, amely négyzetesen skálázódik a szekvencia hosszával. Ez a rendkívül hosszú kontextusokat számításilag lehetetlenné teszi.

Megfordítva, a lineáris RNN-ek, mint például a Mamba, a kontextust rögzített állapotú vektorokká tömörítik. Bár ez végtelen hosszúságot tesz lehetővé, gyakran „katasztrofális elfelejtést” eredményez, mivel az új adatok felülírják a régi információkat. A Titans egy harmadik utat mutat be: „Test-Time Training” (TTT).

Ahelyett, hogy a kezdeti edzési fázis után lefagyasztaná a modell súlyát, a Titans memória-architektúra tanulását

lehetővé teszi a module során is.

A kontextusablakot adatkészletként kezelve a modell egy mini-gradiens süllyedési hurkot futtat a bejövő tokeneken. Ez frissíti a belső paramétereit, hogy jobban reprezentálja a feldolgozott dokumentumot.

Amint a Google kutatócsoportja kifejti, „ahelyett, hogy az információkat statikus állapotba tömörítené, ez az architektúra aktívan tanulja és frissíti a saját paramétereit az adatfolyamok során.”

Ezen az aktív tanulási folyamaton keresztül a modell dinamikusan igazítja tömörítési stratégiáját, és nem az aktuális információkat helyezi előtérbe. decay function.

A Titans (MAC) architektúra áttekintése. Hosszú távú memóriát használ a múltbeli adatok tömörítésére, majd az összefoglaló szövegkörnyezetbe való beépítésére és a figyelem továbbítására. A figyelem ezután eldöntheti, hogy kell-e foglalkoznia a múlt összefoglalásával vagy sem. (Forrás: Google)

A számítási többletterhelés kezelésére a Titans egy „Meglepetés-metrikát” alkalmaz, amely gradienshibán alapul. Egy új token feldolgozásakor a modell kiszámítja az előrejelzés és a tényleges bemenet közötti különbséget. A magas hibaüzenet „meglepetést” jelez, ami azt jelenti, hogy az információ újszerű, és meg kell jegyezni. Az alacsony hibaszint arra utal, hogy az információ redundáns vagy már ismert.

Egy konkrét példával élve a kutatók megjegyzik, hogy „ha az új szó a ’macska’, és a modell memóriaállapota már állati szóra számít, akkor a gradiens (meglepetés) alacsony. Biztonságosan kihagyhatja a memorizálást. új tények.

Ezt az aktív tanulást egy adaptív „Felejtési Mechanizmus” egészíti ki. Kapuként működik, ez a funkció súlycsökkentést alkalmaz a memóriaparaméterekre, amikor a narratív kontextus jelentősen eltolódik. A meglepő új adatok felvételét az elavult információk ellenőrzött kiadásával egyensúlyozva a Titans megőrzi a kontextus nagy pontosságú ábrázolását.

Ez megakadályozza, hogy a modell behódoljon a rögzített állapotú modelleket sújtó zajnak. A beágyazott tanulási paradigma meghatározza ennek a megközelítésnek az elméleti alapját:

“A beágyazott tanulás feltárja, hogy egy komplex ML-modell valójában koherens, egymással összefüggő optimalizálási problémák halmaza, amelyek egymásba ágyazódnak, vagy párhuzamosan futnak.”

“Mindegyik ilyen belső problémának megvan a maga kontextusáramlása, saját különálló információhalmaza, amelyből tanulni próbál.”

az architektúra és az optimalizálás ugyanannak az éremnek a két oldala. Azáltal, hogy a modellt optimalizálási problémák hierarchiájaként tekintjük, a Titans nagy számítási mélységet tud kihasználni memóriamoduljában. Ez megoldja a „katasztrófális elfelejtés” problémáját, amely régóta korlátozza az ismétlődő hálózatok használhatóságát.

Extrém kontextus és referenciaértékek

A legfigyelemreméltóbb, hogy ez az aktív memóriarendszer olyan környezeti ablakokat kezel, amelyek megtörik a hagyományos architektúrákat. A Google referenciaértékei azt mutatják, hogy a Titans hatékony visszahívást tart fenn 2 000 000 token feletti kontextushosszon. Összehasonlításképpen, a jelenlegi sorozatgyártású modellek, például a GPT-4o, általában 128 000 tokenek maximalizálnak.

A kihívást jelentő „Tű a szénakazalban” (NIAH) tesztekben, amelyek azt mérik, hogy a modell képes-e visszakeresni egy nagy mennyiségű, nem kapcsolódó szövegben eltemetett konkrét tényt, a Titans jelentős fölényt mutatott az RNN lineáris alapvonalakkal szemben. Az „Egytűs” feladatnál szintetikus zajjal (S-NIAH-PK) 8 000 token hosszon a Titans MAC változata 98,8%-os pontosságot ért el, szemben a Mamba2 mindössze 31,0%-ával.

A természetes nyelvi adatok teljesítménye hasonlóan robusztus volt. A teszt WikiText verziójában (S-NIAH-W) a Titans MAC 88,2%-ot ért el, míg a Mamba2 4,2%-kal küzdött. Az ilyen eredmények arra utalnak, hogy bár a lineáris RNN-ek hatékonyak, rögzített állapotú tömörítésük elveszíti kritikus hűségét a valós dokumentumokban található összetett, zajos adatok kezelésekor.

Benchmark Performance: Titans vs. state-of-the-art alapvonalak

A kulcsszó hangsúlyozása, hogy a Google nem egyszerűen keresési képességekkel rendelkezik, megjegyzi; megérti és szintetizálja az egész történetet.”A súlyok frissítésével, hogy minimalizálja a teljes sorozat meglepetését, a modell a narratív ív strukturális megértését teszi lehetővé. Ez lehetővé teszi, hogy a szemantikai kapcsolatokon alapuló információkat kérjen le, nem pedig pusztán tokenillesztést.

A Google részletes lebontásban részesíti az architektúra meghatározó funkcióját: a memóriamodulját. A hagyományos visszatérő neurális hálózatokkal (RNN-ekkel) ellentétben, amelyeket jellemzően rögzített méretű vektor-vagy mátrixmemória korlátoz, lényegében egy statikus tároló, amely könnyen túlzsúfolt vagy zajossá válhat az adatok felhalmozódásával, a Titans egy új neurális hosszú távú memóriamodult mutat be.

Ez a modul mély neurális hálózatként működik, saját jogán, többrétegű LP-ként. Azáltal, hogy a memóriát tanulható hálózatként, nem pedig statikus tárolóként strukturálja, a Titans lényegesen nagyobb kifejezőerőt ér el. Ez az architektúraváltás lehetővé teszi a modell számára, hogy hatalmas mennyiségű információt tud dinamikusan beemelni és összegezni.

Ahelyett, hogy egyszerűen csonkolná a régebbi adatokat, vagy alacsony pontosságú állapotba tömörítené azokat, hogy helyet adjon az új bemeneteknek, az MLP memóriamodul szintetizálja a kontextust, biztosítva, hogy a kritikus részletek és szemantikai kapcsolatok megőrződjenek, még akkor is, amikor az ablakok milliói kontextusba bővülnek.

A visszakeresési pontosságon túl a Titans az általános nyelvi modellezés hatékonyságában is ígéretes. A 340 milliós paraméterskálán a Titans MAC varianbencht 25,43-as zavarodottságot ért el a WikiText adatkészletén. Ez a teljesítmény felülmúlja mind a Transformer++ alapvonalat (31.52), mind az eredeti Mamba architektúrát (30.83).

Ez azt jelzi, hogy az aktív memóriafrissítések jobban reprezentálják a nyelvi valószínűségi eloszlást, mint a statikus súlyok önmagukban. Ali Behrouz, a projekt vezető kutatója kiemeli ennek a tervnek az elméleti vonatkozásait, és kijelenti, hogy „a Titánok képesek megoldani a TC0-n túlmutató problémákat is, ami azt jelenti, hogy a titánok elméletileg kifejezőbbek, mint a Transformerek és a legtöbb modern lineáris visszatérő modell az állapotkövetési feladatokban.”

Az ilyen expresszivitás lehetővé teszi, hogy a Titánok hosszú állapotú feladatokat változókká változtassanak. vagy egy regény cselekménypontjainak nyomon követése, amelyek gyakran összekeverik az egyszerűbb, visszatérő modelleket.

Hatékonyság: MIRAS kontra a piac

Az építészeti újítások formalizálására a Google bevezette a MIRAS keretrendszert. A különféle szekvenciamodellezési megközelítéseket, köztük a transzformátorokat, az RNN-eket és a titánokat egyesítve, a modell az „asszociatív memória” égisze alatt működik.

A Google szerint a MIRAS keretrendszer a sorozatmodellezést négy alapvető tervezési lehetőségre bontja. Az első a Memory Architecture, amely meghatározza az információ tárolására használt szerkezeti formát, az egyszerű vektoroktól és mátrixoktól a titánokban található mély, többrétegű perceptronokig. Ez párosul az Attentional Bias-szal, amely egy belső tanulási cél, amely szabályozza, hogy a modell hogyan rangsorolja a bejövő adatokat, és hatékonyan dönti el, hogy mi az, ami elég jelentős a memorizáláshoz.

A kapacitás kezeléséhez a keretrendszer egy megőrzési kaput alkalmaz. A MIRAS újraértelmezi a hagyományos „feledési mechanizmusokat”, mint a rendszeresítés sajátos formáit, biztosítva a stabil egyensúlyt az új fogalmak elsajátítása és a történelmi kontextus megtartása között. Végül a memóriaalgoritmus meghatározza a memória állapotának frissítéséhez használt specifikus optimalizálási szabályokat, és ezzel befejezi az aktív tanulási ciklust.

Azáltal, hogy a szekvenciamodellezést erre a négy komponensre bontja, a MIRAS demisztifikálja a figyelemmechanizmusok „varázslatát”. Átminősíti őket az asszociatív memória egy típusává, meghatározott torzítással és megőrzési beállításokkal. A kutatók így keverhetik és egyeztethetik az összetevőket, ami potenciálisan olyan hibrid architektúrákhoz vezethet, amelyek a figyelem pontosságát az ismétlődés hatékonyságával ötvözik.

Az építészeti paradigmaváltás: A MIRAS-keret

A dinamikus, nagy kapacitású memória éles ellentétben áll az Edge AI-modellek uralkodó trendjével, ahol a cél gyakran a helyi állapotok zsugorítása. Például az IBM által bemutatott Granite 4.0 Nano már 350 millió paraméteres modelleket mutatott be, amelyeket laptopokon való használatra terveztek.

Míg az IBM stratégiája a statikus intelligencia mindenütt elérhetővé és olcsóbbá tételére összpontosít, a Google Titans megközelítése magát a modellt okosabbá és alkalmazkodóbbá kívánja tenni. Ez még akkor is érvényes, ha a következtetések során a súlyok frissítéséhez szükséges számítási többlet.

A számítási többlet vagy a „Context Gap” továbbra is az elsődleges akadály a Titans számára. A memóriaparaméterek valós idejű frissítése számítási szempontból drágább, mint az olyan modellek statikus következtetése, mint a Granite vagy a Llama. A nagyszabású adatkészletek mély megértését igénylő alkalmazások esetében azonban, mint például a jogi felfedezés, a genomiális elemzés vagy a kódbázis újrafaktorálása, a dokumentum „tanulásának” képessége értékesebbnek bizonyulhat, mint a nyers következtetési sebesség.

Az önmódosító vízió első megvalósításaként a „Remény” architektúrát a koncepció bizonyítékaként vezették be. href=”https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/”target=”_blank”>Nested Learning papír. Ahogy az ipar továbbra is a hosszabb összefüggések és a mélyebb érvelés felé törekszik, az olyan architektúrák, mint a Titans, amelyek elmossák a határvonalat a képzés és a következtetés között, meghatározhatják az alapmodellek következő generációját.

Categories: IT Info