Ett konsortium av universitets-och Amazon-forskare har avslöjat en ny AI-arkitektur, den energibaserade transformatorn (EBT). Det är utformat för att utrusta modeller med mer mänskliga analytiska färdigheter. The approach aims to instill “System 2 thinking”into AI, which often relies on fast, intuitive pattern recognition.
Detailed in a new research paper, the EBT model treats thinking as an iterative optimization process. Det börjar med en slumpmässig lösning och förbättrar gradvis den för att minimera en beräknad”energi”-poäng. Medan tidiga resultat tyder på att EBT: er kan vara mer dataeffektiv, kräver metoden mer beräkning.
Projektets kärnfråga, som forskarna ställer, är:”Är det möjligt att generalisera dessa system 2-tänkande och utveckla modeller som lär sig att bara tänka från oöverträffat lärande?”Detta utmanar det nuvarande paradigmet för AI-utvecklingen. The work is available on a project page and GitHub.
>>
Från intuition till analys: strävan efter’System 2’AI
EBT-arkitekturen representerar en grundläggande förändring bort från det dominerande AI-paradigmet. Most current models, including standard Transformers, excel at what Nobel laureate Daniel Kahneman termed “System 1 thinking.” This is the fast, intuitive, pattern-matching capability that allows them to generate fluent text or Känner igen bilder nästan omedelbart.
Men dessa modeller vaknar ofta på uppgifter som kräver “System 2-tänkande”-de långsammare, avsiktliga och analytiska resonemang som människor använder för komplexa problem som matematik eller logiska pussel. EBT-ramverket är ett direkt försök att bygga denna djupare kognitiva process direkt in i modellens arkitektur.
i hjärtat, EBT-förutsägelsen som ett optimeringspussel. En standardtransformator tar en ingång och genererar en utgång i en enda, deterministisk framåtpass. Däremot lär sig en EBT ett komplext, högdimensionellt”energilandskap”för alla möjliga förutsägelser relaterade till ett givet sammanhang.
I stället för att direkt producera ett svar, börjar modellen med en slumpmässig, bullrig gissning. Den använder sedan principerna för lutningstal för att iterativt förfina denna gissning, i huvudsak”gå”den nedförsbacke på det lärda energilandskapet tills det sätter sig i det lägsta möjliga punkten, eller”Energy Valley.”
Detta lägsta energi-tillstånd representerar det mest troliga och kontextuellt sammanhängande svaret. Denna iterativa förfiningsprocess är kärnan i EBT: s”tänkande”mekanism. Det gör att modellen kan utforska ett utrymme med potentiella lösningar snarare än att vara inlåsta på en enda väg.
Detta tillvägagångssätt är utformat för att förkroppsliga tre viktiga aspekter av kognition som ofta är frånvarande i standardmodeller. Den första är dynamisk beräkningsallokering. För ett enkelt problem kan modellen hitta energiminimumet i bara några steg. För en komplex kan det ta många fler steg och effektivt spendera mer”tankar”på problemet.
Den andra fasetten är förmågan att modellera osäkerhet. Ett smidigt energilandskap med ett tydligt minimum indikerar hög säkerhet. Ett robust landskap med många lokala dalar tyder på att modellen är osäker, eftersom det finns flera troliga svar. Detta ger en mer nyanserad förståelse av modellens eget förtroende.
För det tredje innehåller arkitekturen en inneboende mekanism för förutsägelseverifiering. Den slutliga energipoängen för en förutsägelse fungerar som en inbyggd kvalitetskontroll. En låg poäng indikerar ett högkvalitativt, verifierat svar, medan en hög poäng signalerar en dålig, allt utan att behöva en separat verifieringsmodell.
genom att integrera dessa tre kapacitet, syftar EBT att skapa en mer robust och generaliserbar form av resonemang. It moves beyond simple pattern generation to a process of active, iterative problem-solving, marking a significant conceptual step in the quest for more capable artificial intelligence.
How Energy-Based Transformers ‘Think’
The researchers claim this approach yields significant scaling advantages, attributing them to a core principle: verifying a solution is often computationally easier than generating one from scratch. Medan en standardtransformator måste lära sig den direkta vägen till ett svar, lär sig en EBT att få poäng”korrektheten”för ett givet svar-en enklare uppgift som verkar generalisera mer effektivt. Deras papper rapporterar att EBTS skalas mer effektivt än den avancerade transformatorn ++ baslinjen, som visar upp till en 35% högre skalningshastighet med avseende på data.
Den förbättrade datarättningen är särskilt anmärkningsvärd. Det antyder att i skala kan en EBT kunna uppnå samma prestanda som en standardtransformator under träning på betydligt mindre data. I en era där branschen närmar sig gränserna för högkvalitativa utbildningsdata som finns tillgängliga på webben, är det ett kritiskt strategiskt mål för fortsatt AI-framsteg att utveckla mer dataeffektiva arkitekturer. För det första kan modellen utföra mer iterativa förfiningsteg på en enda förutsägelse, vilket effektivt ägnar mer beräkning till ett svårt problem. För det andra kan det generera flera kandidatens svar och använda sin interna energifunktion för att självverifiera och välja den med den lägsta energin, vilket indikerar den högsta kompatibiliteten. Denna prestationsförstärkning är mest uttalad på utgifter utanför distributionen (OOD)-problem som skiljer sig från utbildningsdata.
huvudförfattare Alexi Gladstone säger att”energibaserade transformatorer är den första tillvägagångssättet för utskaliga utfodringstransformatorer över modaliteter och med avseende på flera axlar inklusive data, djup, parametrar, flops, etc.”Genom att”tänka”längre vid slutsatsen förbättrade EBTS språkuppgiftsprestanda med upp till 29%. Detta antyder att den iterativa processen gör att de kan resonera mer robust i nya situationer där standardmodeller kan förlita sig på felaktigt mönstermatchning.
lovande prestanda, men till en betydande kostnad
Trots de lovande resultaten står EBT-arkitekturen ett stort hinder: beräkningskostnader. Att utbilda dessa modeller kräver för närvarande mellan 3,3 och 6,6 gånger mer flytande punktoperationer (FLOPS) än standardtransformatorer. Denna betydande omkostnad är inte bara en teoretisk oro; Det utgör en betydande hinder för antagande, potentiellt begränsar EBT-forskning och utveckling till endast de mest välfinansierade akademiska laboratorierna och stora tekniska företag med stora beräkningsresurser.
Högfloppkravet härstammar direkt från den iterativa optimeringsprocessen vid kärnan i EBT: s design. Till skillnad från en standardmodells enda framåtpass, involverar varje förfiningsteg i en EBT komplexa gradientberäkningar för att bestämma riktningen för nästa”tanke”. Denna process, som kräver beräkning av andra ordningens derivat (eller effektiva tillnärmningar som Hessian-Vector-produkter), är i grunden mer intensiv. Teamet erkänner att detta är ett viktigt område för framtida optimeringsarbete, eftersom att göra denna”tänkande”process billigare är avgörande för praktisk distribution.
Vidare genomfördes de första experimenten på modeller med upp till 800 miljoner parametrar. Detta är en bråkdel av storleken på dagens största AI-system, som ofta överstiger hundratals miljarder parametrar. Att skala en arkitektur genom storleksordningar är notoriskt svårt, vilket ofta avslöjar oförutsedda utmaningar som träningsinstabiliteter eller energilandskap som blir för komplicerade för att navigera effektivt. Därför är det fortfarande en öppen fråga om de prestationsfördelar som observeras i denna mindre skala kommer att hålla, eller till och med förstärka, när den tillämpas på gränsmodeller.
I slutändan presenterar EBT en grundläggande avvägning för AI-samhället: är potentialen för mer robusta, mänskliga resonemang värt en flerfaldig ökning av träningen och slutsatsen? Svaret kommer sannolikt att bero på applikationen. För vetenskapliga eller analytiska uppgifter med höga insatser kan priset vara motiverat, men för allmänt användning förblir kostnads-nyttoanalysen en kritisk och olöst fråga.
den bredare branschens drivkraft för AI-effektivitet
EBT-konceptet kommer att genom en bredare branschvirigning för AI-effektivitet
EBT-konceptet uppstår en bredare industrin-WIDE-WIDE-effektivitet. Flera företag hanterar denna utmaning från olika vinklar och belyser det kritiska behovet av att minska de enorma kostnaderna i samband med storskalig AI.
Dessa konkurrerande metoder hanterar effektivitet i olika stadier. Multiverses Compactifai komprimerar den statiska modellen själv. Sakanas Namms optimerar den dynamiska KV-cachen under slutsatsen. IBM: s Bamba använder en hybridarkitektur för att påskynda sekvensbehandlingen.
däremot förändrar EBT: er i grund och botten förutsägelsemekanismen. I stället för att bara optimera en färdig modell eller dess minne, integrerar EBTS en”tänkande”process direkt i hur varje förutsägelse bildas, som syftar till bättre generalisering och resonemang från grunden.
Till exempel, spansk start-multiverseringsberäkning fokuserar på modellkomprimering. Dess VD, Enrique Lizaso Olmos, konstaterade,”Den rådande visdomen är att krympande LLM kommer till en kostnad. Multiverse förändrar det.”Samtidigt förklarade IBM: s BAMBA-modellinferenshastighet.
IBM: s projektledare Raghu Ganti förklarade strategin:”Allt kommer tillbaka till KV-cache-reduktionen… mer genomströmning, lägre latens, längre sammanhangslängd.”Andra innovationer, som Sakana AI: s minnesoptimeringssystem, syftar också till att göra transformatorer mer effektiva. Sakanas forskare fann att”evolution i sig övervinner icke-differentibiliteten i våra minneshanteringsoperationer, som involverar binära”kom ihåg”eller”glöm”resultat.”
Dessa olika tillvägagångssätt visar en förändring i AI-utvecklingen. När modeller växer tävlar branschen för att hitta hållbara sätt att träna och distribuera dem. EBT-forskarna tror att deras arbete är en viktig del av denna framtid och drar slutsatsen att”EBT är ett lovande nytt paradigm för att skala både inlärnings-och tänkande kapacitet för modeller.”