Et konsortium av universitets-og Amazon-forskere har avduket en ny AI-arkitektur, den energibaserte transformatoren (EBT). Den er designet for å utstyre modeller med mer menneskelignende analytiske ferdigheter. Tilnærmingen tar sikte på å innpode “System 2 Thinking” til AI, som ofte er avhengig av rask, intuitiv mønstergjenkjenning.
detaljert i en
Prosjektets kjernespørsmål, som stilt av forskerne, er:”Er det mulig å generalisere disse System 2-tenkende tilnærminger, og utvikle modeller som lærer å tenke utelukkende på uovervåket læring?”Dette utfordrer det nåværende paradigmet for AI-utvikling. Arbeidet er tilgjengelig på en prosjekt side og github . src=”data: image/svg+xml; nitro-tom-id=mty0mdoxmty4-1; base64, phn2zyb2awv3qm94psiwidagmti4mca0mj Eiihdpzhropsixmjgwiibozwlnahq9ijqymsigeg1sbnm9imH0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> EBT-arkitekturen representerer et grunnleggende skifte bort fra det dominerende AI-paradigmet. De fleste aktuelle modeller, inkludert standardtransformatorer, Excel på hva nobel laureat daniel kahneman betegnet”System 1 Thinking”///////////////////////////////////////iz/////ahiz/////////////tr,> Imidlertid vakler disse modellene ofte på oppgaver som krever”System 2-tenking”-de tregere, bevisste og analytiske resonnementet mennesker bruker for komplekse problemer som flertrinnsmatematikk eller logiske puslespill. EBT-rammeverket er et direkte forsøk på å bygge denne dypere kognitive prosessen direkte inn i modellens arkitektur. I hjertet avregner EBT-prediksjonen som et optimaliseringspuslespill. En standardtransformator tar en inngang og genererer en utgang i en enkelt, deterministisk fremoverpass. I kontrast lærer en EBT et komplekst, høydimensjonalt”energilandskap”for alle mulige spådommer relatert til en gitt kontekst. I stedet for å direkte produsere et svar, starter modellen med en tilfeldig, støyende gjetning. Den bruker deretter prinsippene for gradient nedstigning for å iterativt avgrense denne gjetningen, i hovedsak”å gå”den nedoverbakke på det lærde energilandskapet til det legger seg i det laveste mulige punktet, eller”energidalen.” Denne laveste energi-tilstanden representerer det mest plausible og kontekstuelt sammenhengende svaret. Denne iterative foredlingsprosessen er kjernen i EBTs”tenkning”-mekanisme. Det gjør at modellen kan utforske et rom med potensielle løsninger i stedet for å være låst i en enkelt bane. Denne tilnærmingen er designet for å legemliggjøre tre viktige fasetter av kognisjon som ofte er fraværende i standardmodeller. Den første er dynamisk beregningsfordeling. For et enkelt problem kan modellen finne minimum av energien i bare noen få trinn. For en kompleks en kan det ta mange flere skritt, og effektivt bruke mer”tanke”på problemet. Den andre fasiten er evnen til å modellere usikkerhet. Et jevnt energilandskap med ett klart minimum indikerer høy sikkerhet. Et robust landskap med mange lokale daler antyder at modellen er usikker, ettersom flere plausible svar eksisterer. Dette gir en mer nyansert forståelse av modellens egen selvtillit. For det tredje inkluderer arkitekturen en iboende mekanisme for prediksjonsverifisering. Den endelige energiscore for en prediksjon fungerer som en innebygd kvalitetskontroll. En lav poengsum indikerer et bekreftet svar av høy kvalitet, mens en høy poengsum signaliserer en dårlig, alt uten å trenge en egen verifiserende modell. Ved å integrere disse tre mulighetene, har EBT som mål å skape en mer robust og generaliserbar form for resonnement. Den beveger seg utover enkel mønstergenerering til en prosess med aktiv, iterativ problemløsing, og markerer et betydelig konseptuelt trinn i jakten på mer dyktig kunstig intelligens. fra intuisjon til analyse: The Quest for ‘System 2’ AI
Hvordan energibaserte transformatorer ‘tenk’
The Researchers hevder denne tilnærmingen gir en betydelig skalering av en kjerne som gir en kjerne som gir en kjerne enn å generere en kjerne. riper. Mens en standard transformator må lære den direkte veien til et svar, lærer en EBT å score ‘korrektheten’ for et gitt svar-en enklere oppgave som ser ut til å generalisere mer effektivt. Papiret deres rapporterer at EBTS skalerer mer effektivt enn den avanserte transformatoren ++ grunnlinjen, og viser opp til en 35% høyere skaleringshastighet med hensyn til data.
Den forbedrede dataeffektiviteten er spesielt bemerkelsesverdig. Det antyder at en EBT i skalaen kan oppnå samme ytelse som en standardtransformator mens han trener på betydelig mindre data. I en tid der bransjen nærmer seg grensene for treningsdata av høy kvalitet på nettet, er det å utvikle mer dataeffektive arkitekturer et kritisk strategisk mål for fortsatt AI-fremgang.
Slike”tenkning”manifesterer seg på to viktige måter under inferens. For det første kan modellen utføre flere iterative foredlingstrinn på en enkelt prediksjon, og effektivt dedikere mer beregning til et vanskelig problem. For det andre kan det generere flere kandidatvaresvar og bruke sin interne energifunksjon til å selvverifisere og velge den med den laveste energien, noe som indikerer den høyeste kompatibiliteten. Denne ytelsesøkningen er mest uttalt på oppgaver uten distribusjon (OOD)-problemer som skiller seg fra treningsdataene.
LEAD-forfatter Alexi Gladstone uttaler at”energibaserte transformatorer er den første tilnærmingen til å outscale fôr-fremover-transformatorer på tvers av modaliteter og med respekt for flere akser, inkludert data, dyp, parametere, flekk, flommer, parametere, flommer, flommer, flate, flommer, flate, flommer, flate, flommer, flate, flommer,. Ved å”tenke”lenger på inferens, forbedret EBTS språkoppgavens ytelse med opptil 29%. Dette antyder at den iterative prosessen gjør at de kan resonnere mer robust i nye situasjoner der standardmodeller kan stole på mangelfull mønstermatching.
lovende ytelse, men til en betydelig kostnad
Til tross for de lovende resultatene, står EBT-arkitekturen overfor en større hindring: beregningskostnad. Å trene disse modellene krever for tiden mellom 3,3 og 6,6 ganger mer flytende punktoperasjoner (flops) enn standard transformatorer. Denne betydelige overhead er ikke bare en teoretisk bekymring; Det utgjør en betydelig barriere for adopsjon, og potensielt begrenser EBT-forskning og utvikling til bare de mest godt finansierte akademiske laboratoriene og store teknologiske selskaper med store beregningsressurser.
Høyt floppkrav stammer direkte fra den iterative optimaliseringsprosessen i kjernen av EBTs design. I motsetning til en standardmodells enkelt fremoverpass, involverer hvert foredlingstrinn i en EBT komplekse gradientberegninger for å bestemme retningen til neste ‘tanke’. Denne prosessen, som krever beregning av andreordens derivater (eller effektive tilnærminger som Hessian-Vector-produkter), er grunnleggende mer intensiv. Teamet erkjenner at dette er et sentralt område for fremtidig optimaliseringsarbeid, ettersom det å gjøre denne ‘tenkende’ prosessen billigere er avgjørende for praktisk distribusjon.
Videre ble de første eksperimentene utført på modeller med opptil 800 millioner parametere. Dette er en brøkdel av størrelsen på dagens største AI-systemer, som ofte overstiger hundrevis av milliarder av parametere. Å skalere en arkitektur etter størrelsesordrer er notorisk vanskelig, og avslører ofte uforutsette utfordringer som trening ustabiliteter eller energilandskap som blir for kompliserte til å navigere effektivt. Derfor er det fortsatt et åpent spørsmål om ytelsesfordelene som er observert i denne mindre skalaen vil holde, eller til og med forsterke, når den brukes på grensemodeller.
Til slutt presenterer EBT en grunnleggende avveining for AI-samfunnet: er potensialet for mer robust, menneskelig-lignende resonnement verdt en flere ganger økning i trening og inferens? Svaret vil sannsynligvis avhenge av søknaden. For vitenskapelige eller analytiske oppgaver med høy innsats kan prisen være berettiget, men for bruk av generell formål er kostnads-nytte-analysen fortsatt et kritisk og uavklart problem.
Den bredere bransjens press for AI-effektivitet
EBT-konseptet kommer for en bred bransje-bransje-bransje-bransje-bredd-bransje-bredd-bransje-bredder-bredder-bredere bransje-bransje-bransje-bransje. Flere selskaper takler denne utfordringen fra forskjellige vinkler, og fremhever det kritiske behovet for å redusere de enorme kostnadene forbundet med storstilt AI.
Disse konkurrerende metodene takler effektiviteten i forskjellige stadier. Multiverses Compactifai komprimerer den statiske modellen i seg selv. Sakanas NAMMS optimaliserer den dynamiske KV-cachen under inferens. IBMs Bamba bruker en hybridarkitektur for å fremskynde sekvensbehandlingen.
I motsetning til dette, endrer EBTS grunnleggende prediksjonsmekanismen. I stedet for bare å optimalisere en ferdig modell eller dens minne, integrerer EBTS en”tenkende”prosess direkte i hvordan hver prediksjon dannes, og sikter til bedre generalisering og resonnement fra grunnen av.
For eksempel fokuserer spansk oppstart multiverse databehandling på modellkompresjon. Administrerende direktør, Enrique Lizaso Olmos, bemerket,”Den rådende visdommen er at krympende LLM-er kommer til en pris. Multiverse endrer det.”I mellomtiden retter IBMs Bamba-modellens inferenshastighet.
IBMs prosjektleder Raghu Ganti forklarte strategien:”Alt kommer tilbake til KV-cache-reduksjonen… mer gjennomstrømning, lavere latens, lengre kontekstlengde.”Andre nyvinninger, som Sakana AIs minneoptimaliseringssystem, tar også sikte på å gjøre transformatorer mer effektive. Sakanas forskere fant at “Evolution iboende overvinner ikke-differensierbarheten til våre minnestyringsoperasjoner, som involverer binære‘ husk ’eller‘ glem ’utfall.”
Disse varierte tilnærmingene viser et skifte i AI-utviklingen. Når modeller vokser, kjører industrien for å finne bærekraftige måter å trene og distribuere dem på. EBT-forskerne mener arbeidet deres er en sentral del av denne fremtiden, og konkluderer med at”EBT-er er et lovende nytt paradigme for å skalere både lærings-og tenkemulighetene til modeller.”