Az Egyetemi és az Amazon Kutatók konzorciuma új AI architektúrát, az energia alapú transzformátort (EBT) mutatott be. Úgy tervezték, hogy a modelleket emberiszerűbb elemző képességekkel felszerelje. A megközelítés célja, hogy a „rendszer 2-es gondolkodását” beillesztse az AI-be, amely gyakran a gyors, intuitív mintázatfelismerésre támaszkodik. Egy véletlenszerű oldattal kezdődik, és fokozatosan javítja azt a kiszámított „energia” pontszám minimalizálása érdekében. Noha a korai eredmények azt sugallják, hogy az EBT-k adathatékonyabbak lehetnek, a módszerhez nagyobb számítás szükséges. Ez megkérdőjelezi az AI fejlesztésének jelenlegi paradigmáját. A munka elérhető a projekt oldal és github . src=”adatok: image/svg+xml; nitro-üres-id=mty0mdoxmty4-1; base64, phn2zyb2awv3qm94psiwidagmti4mca0mj Eiihdpzhropsixmjgwiibozwlnahq9ijqymsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2z4=”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>

az intuíciótól az elemzésig: A „System 2″ AI

keresése az EBT architektúrája alapvető elmozdulást jelent a domináns AI paradigmától. A legtöbb jelenlegi modell, beleértve a standard transzformátorokat, az Excel AT Milyen Nobel-díjas Daniel Kahneman-t, amely „1. rendszert”-ez a gyors, intertuitív, mintázatú, amely lehetővé teszi, hogy lehetővé tegye őket, és lehetővé teszi, hogy a „System 1 gondolkodás”. Szinte azonnal. Az EBT keretrendszer egy közvetlen kísérlet, hogy ezt a mélyebb kognitív folyamatot közvetlenül a modell architektúrájába építhesse. A szabványos transzformátor bevonást vesz be, és kimenetet generál egyetlen, determinisztikus előrehaladási passzon. Ezzel szemben az EBT megtanul egy komplex, nagydimenziós „energiakeret” az adott kontextushoz kapcsolódó összes lehetséges előrejelzéshez. Ezután felhasználja a gradiens származásának alapelveit, hogy iteratív módon finomítsa ezt a találgatást, lényegében „sétálva” lefelé a megtanult energiakerületen, amíg a lehető legalacsonyabb pontba nem áll, vagy az „Energy-völgy”. Ez az iteratív finomítási folyamat az EBT „gondolkodó” mechanizmusának lényege. Ez lehetővé teszi a modell számára, hogy felfedezze a potenciális megoldások egy helyét, ahelyett, hogy egyetlen útba rögzítik. Az első a dinamikus számítási elosztás. Egy egyszerű probléma esetén a modell csak néhány lépésben találhatja meg az energia minimumát. Egy összetett számára még sok további lépést is megtehet, és hatékonyan költi a problémát.

A második szempont a bizonytalanság modellezésének képessége. A sima energiájú táj egy tiszta minimummal magas bizonyosságot jelez. Egy robusztus táj, sok helyi völgygel, azt sugallja, hogy a modell bizonytalan, mivel több valószínű válasz létezik. Ez a modell saját bizalmának árnyaltabb megértését biztosítja. Az előrejelzés végső energiájának pontszáma beépített minőség-ellenőrzésként szolgál. Az alacsony pontszám kiváló minőségű, ellenőrzött választ jelöl, míg a magas pontszám szegényt jelez, mindezt anélkül, hogy különálló ellenőrző modellre lenne szükség. Az egyszerű mintázatok generációján túlmutat az aktív, iteratív problémamegoldás folyamatához, jelezve egy jelentős fogalmi lépést a képesbb mesterséges intelligencia törekvésein. Míg a szabványos transzformátornak meg kell tanulnia a válasz közvetlen útját, az EBT megtanulja, hogy pontozza az adott válasz „helyességét”-egy egyszerűbb feladat, amely úgy tűnik, hogy a hatékonyabban általánosít. A papíruk szerint az EBT-k hatékonyabban skáláznak, mint a fejlett transzformátor ++ kiindulási érték, amely az adatokkal szemben 35%-kal magasabb skálázási sebességet mutat. Azt sugallja, hogy a méretarányban az EBT ugyanolyan teljesítményt érhet el, mint a standard transzformátor, miközben lényegesen kevesebb adaton képzéssel rendelkezik. Egy olyan korszakban, amikor az iparág megközelíti az interneten rendelkezésre álló magas színvonalú képzési adatok korlátait, az adathatékonyabb architektúrák kidolgozása kritikus stratégiai cél az AI folytatása érdekében. Először is, a modell iteratív finomítási lépéseket hajthat végre egyetlen előrejelzésen, hatékonyan a nehéz problémának szentelve. Másodszor, számos jelölt választ generálhat, és belső energiaszunkcióját felhasználhatja az önellenőrzéshez és a legalacsonyabb energiával rendelkező önálló kiválasztáshoz, jelezve a legmagasabb kompatibilitást. Ez a teljesítménynövekedés a leginkább az eloszláson kívüli (OOD) feladatokon-olyan problémák, amelyek különböznek az edzési adatoktól. A következtetésnél hosszabb „gondolkodás” révén az EBTS a nyelvi feladat teljesítményét akár 29%-kal is javította. Ez azt sugallja, hogy az iteratív folyamat lehetővé teszi számukra, hogy robusztusabban érjenek el olyan új helyzetekben, amikor a standard modellek a hibás mintázat-illesztésre támaszkodhatnak. Ezeknek a modelleknek a képzése jelenleg 3,3 és 6,6-szor több lebegőpontos műveletet (FLOPS) igényel, mint a szokásos transzformátorok. Ez a jelentős költség nem csupán elméleti aggodalom; Jelentős akadályt jelent az örökbefogadás szempontjából, és potenciálisan az EBT kutatásait és fejlesztését csak a leginkább jól finanszírozott tudományos laboratóriumokra és a nagy technológiai vállalatokra korlátozza, amelyek hatalmas számítási erőforrásokkal rendelkeznek. A standard modell egyetlen előremenő átadásával ellentétben az EBT minden finomítási lépése összetett gradiens számításokat foglal magában a következő „gondolat” irányának meghatározására. Ez a folyamat, amely megköveteli a másodrendű származékok (vagy a hatékony közelítések, például a Hessian-vektor termékek) kiszámítását, alapvetően intenzívebb. A csapat elismeri, hogy ez a jövőbeli optimalizálási munka kulcsfontosságú területe, mivel ez a „gondolkodás” folyamat olcsóbbá tétele elengedhetetlen a gyakorlati telepítéshez. Ez a mai legnagyobb AI rendszerek méretének töredéke, amely gyakran meghaladja a több száz milliárd paramétert. Az architektúra nagyságrenddel történő méretezése hírhedten nehéz, gyakran feltárva az előre nem látható kihívásokat, például az edzési instabilitást vagy az energiaterületeket, amelyek túl bonyolultak a hatékony navigáláshoz. Ezért továbbra is nyitott kérdés, hogy az ilyen kisebb léptékben megfigyelt teljesítmény-előnyök megtartják-e, vagy akár erősítik-e, ha a Frontier Models-re alkalmazzák. A válasz valószínűleg az alkalmazástól függ. A magas tétű tudományos vagy analitikai feladatok esetében az ár indokolt lehet, de az általános célú felhasználáshoz a költség-haszon elemzés továbbra is kritikus és megoldatlan kérdés. Számos vállalat különböző szögekből foglalkozik ezzel a kihívással, kiemelve a nagyszabású AI-hez kapcsolódó hatalmas költségek csökkentésének kritikus szükségességét.

Ezek a versengő módszerek kezelik a hatékonyságot a különböző szakaszokban. A Multiverse’s Compactifai magának a statikus modellnek tömöríti. A Sakana Namms a következtetés során optimalizálja a dinamikus KV gyorsítótárat. Az IBM Bamba hibrid architektúrát használ a szekvencia-feldolgozás felgyorsítására. A kész modell vagy annak memóriájának optimalizálása helyett az EBT-k egy „gondolkodás” folyamatot integrálnak az egyes előrejelzések kialakulásának módjába, és az alapoktól kezdve jobb általánosítást és érvelést céloznak meg. Vezérigazgatója, Enrique Lizaso Olmos, megjegyezte: „Az uralkodó bölcsesség az, hogy az LLM-ek zsugorodása költségekkel jár. A Multiverse ezt megváltoztatja.” Eközben az IBM Bamba modellje a következtetési sebességet célozza. Más innovációk, mint például a Sakana AI memória-optimalizálási rendszere, szintén célja a transzformátorok hatékonyabbá tétele. A Sakana kutatói azt találták, hogy „az evolúció lényegében legyőzi a memóriagazdálkodási műveleteink nem differenciálhatóságát, amely bináris„ emlékezés “vagy„ elfelejt “eredményeket tartalmaz.”

Ezek a változatos megközelítések az AI fejlődésében eltolódnak. A modellek növekedésével az ipar versenyez, hogy fenntartható módszereket találjon a kiképzésre és a telepítésre. Az EBT kutatói úgy vélik, hogy munkájuk kulcsfontosságú része ennek a jövőnek, arra a következtetésre jutva, hogy „az EBTS ígéretes új paradigma a modellek tanulási és gondolkodási képességeinek méretezésére.”