Un consorțiu de cercetători universitari și Amazon a dezvăluit o nouă arhitectură AI, transformatorul bazat pe energie (EBT). Este conceput pentru a echipa modele cu mai multe abilități analitice asemănătoare omului. Abordarea își propune să insufle „gândirea sistemului 2″ în AI, care se bazează adesea pe recunoașterea rapidă și intuitivă a modelului.
detaliat într-un New Research Paper , modelul EBT tratează gândirea ca un proces de optimizare iterativ. Începe cu o soluție aleatorie și o îmbunătățește treptat pentru a minimiza un scor „energie” calculat. În timp ce rezultatele timpurii sugerează că EBT-urile ar putea fi mai eficiente de date, metoda necesită mai mult calcul.
Întrebarea principală a proiectului, așa cum este prezentată de cercetători, este: „Este posibilă generalizarea acestor abordări de gândire a sistemului 2 și să dezvolte modele care învață să gândească doar din învățarea nesupervizată?” Acest lucru contestă paradigma actuală a dezvoltării AI. Lucrarea este disponibilă pe A Project pagina și github . src=”date: imagine/svg+xml; nitro-go-id=mty0mdoxmty4-1; base64, phn2zyb2awv3qm94psiwidagmti4mca0mj Eiihdpzhropsixmjgwiibozwlnahq9ijqymsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
de la intuiție la analiză: Căutarea „Sistem 2″ AI
Arhitectura EBT reprezintă o schimbare fundamentală de paradigma AI dominantă. Majoritatea modelelor actuale, inclusiv Transformatoare standard, Excel la Ceea ce laureatul Nobel Daniel Kahneman a denumit „Sistem 1 Gândirea. Recunoașteți imaginile aproape instantaneu.
Cu toate acestea, aceste modele se încadrează adesea pe sarcini care necesită „gândirea sistemului 2″-raționamentul mai lent, deliberat și analitic pe care oamenii îl folosesc pentru probleme complexe, cum ar fi matematica în mai multe etape sau puzzle-uri logice. Cadrul EBT este o încercare directă de a construi acest proces cognitiv mai profund direct în arhitectura modelului.
În centrul său, predicția EBT reframează ca puzzle de optimizare. Un transformator standard ia o intrare și generează o ieșire într-o singură trecere, deterministă. În schimb, un EBT învață un „peisaj energetic” complex, de înaltă dimensiune, pentru toate predicțiile posibile legate de un context dat.
În loc să producă direct un răspuns, modelul începe cu o ghicire aleatorie și zgomotoasă. Apoi folosește principiile descendenței gradientului pentru a perfecționa în mod iterativ această ghicire, în esență „mergând” în jos pe peisajul energetic învățat până când se va stabili în cel mai mic punct posibil, sau „Valea energetică”. Acest proces de rafinare iterativă este nucleul mecanismului „gânditor” al EBT. Permite modelului să exploreze un spațiu de soluții potențiale, mai degrabă decât să fie blocat într-o singură cale.
Această abordare este concepută pentru a întruchipa trei fațete cheie ale cogniției adesea absente în modelele standard. Primul este alocarea dinamică a calculului. Pentru o problemă simplă, modelul ar putea găsi energia minimă în doar câțiva pași. Pentru unul complex, poate face mai mulți pași, cheltuind efectiv mai mult „gândit” asupra problemei.
A doua fațetă este capacitatea de a modela incertitudinea. Un peisaj energetic neted, cu un minim clar, indică o certitudine ridicată. Un peisaj accidentat cu multe văi locale sugerează că modelul este incert, deoarece există mai multe răspunsuri plauzibile. Aceasta oferă o înțelegere mai nuanțată a propriei încrederi a modelului.
În al treilea rând, arhitectura include un mecanism intrinsec pentru verificarea predicției. Scorul energetic final al unei predicții servește ca o verificare de calitate încorporată. Un scor scăzut indică un răspuns verificat de înaltă calitate, în timp ce un scor ridicat semnalează unul slab, toate fără a avea nevoie de un model de verificare separată.
Prin integrarea acestor trei capabilități, EBT își propune să creeze o formă de raționament mai robustă și mai generalizabilă. Se deplasează dincolo de generarea simplă a modelului într-un proces de rezolvare a problemelor active, iterative, marcând un pas conceptual semnificativ în căutarea unei inteligențe artificiale mai capabile.
modul în care transformatorii bazate pe energie „gândesc”
Cercetătorii susțin că această abordare produce o soluție semnificativă, de multe ori, care să le afecteze un principiu. În timp ce un transformator standard trebuie să învețe calea directă către un răspuns, un EBT învață să înscrie „corectitudinea” oricărui răspuns dat-o sarcină mai simplă care pare să se generalizeze mai eficient. Lucrările lor raportează că EBTS se scala mai eficient decât linia de bază avansată a Transformerului ++, care a prezentat până la o rată de scalare cu 35% mai mare în ceea ce privește datele.
Eficiența îmbunătățită a datelor este de remarcat. Acesta sugerează că la scară, un EBT ar putea obține aceeași performanță ca un transformator standard, în timp ce se antrenează pe date semnificativ mai puține. Într-o epocă în care industria se apropie de limitele datelor de instruire de înaltă calitate disponibile pe web, dezvoltarea mai multor arhitecturi eficiente de date este un obiectiv strategic critic pentru progresul continuu al AI.
astfel de „gândire” se manifestă în două moduri cheie în timpul inferenței. În primul rând, modelul poate efectua mai multe etape de rafinament iterative pe o singură predicție, dedicând efectiv mai mult calcularea unei probleme dificile. În al doilea rând, poate genera mai multe răspunsuri candidate și poate folosi funcția sa de energie internă pentru a se autoverifica și a o selecta pe cea cu cea mai mică energie, ceea ce indică cea mai mare compatibilitate. Acest impuls de performanță este cel mai pronunțat în sarcinile din afara distribuției (OOD)-produse care diferă de datele de instruire.
autorul principal Alexi Gladstone afirmă că „Transformatoarele bazate pe energie sunt prima abordare a transformatoarelor de ieșire în curs de dezvoltare între moduri și cu privire la mai multe axe, inclusiv date, profunzime, parametri, flops, etc.” Prin „gândirea” mai mult la inferență, EBTS a îmbunătățit performanța sarcinii limbajului cu până la 29%. Acest lucru sugerează că procesul iterativ le permite să motiveze mai puternic în situații inedite în care modelele standard s-ar putea baza pe potrivirea modelului defectuos.
performanță promițătoare, dar la un cost semnificativ
În ciuda rezultatelor promițătoare, arhitectura EBT se confruntă cu un obstacol major: cost de calcul. Instruirea acestor modele necesită în prezent între 3,3 și 6,6 ori mai multe operații cu punct plutitor (FLOPS) decât transformatoarele standard. Această cheltuială substanțială nu este doar o preocupare teoretică; Acesta reprezintă o barieră semnificativă pentru adopție, potențial limitând cercetarea și dezvoltarea EBT doar la cele mai bine finanțate laboratoare academice și corporații tehnologice mari cu resurse de calcul vaste.
Cerința de flop ridicată provine direct din procesul de optimizare iterativă din centrul proiectării EBT. Spre deosebire de trecerea unică a unui model standard, fiecare etapă de rafinare dintr-un EBT implică calcule complexe de gradient pentru a determina direcția următoarei „gânduri”. Acest proces, care necesită calcularea derivatelor de ordinul doi (sau aproximări eficiente precum produsele hessian-vector), este fundamental mai intens. Echipa recunoaște că acesta este un domeniu cheie pentru lucrările de optimizare viitoare, deoarece acest proces de „gândire” mai ieftin este esențial pentru implementarea practică.
Mai mult, experimentele inițiale au fost realizate pe modele cu până la 800 de milioane de parametri. Aceasta este o fracțiune din dimensiunea celor mai mari sisteme AI de astăzi, care depășesc adesea sute de miliarde de parametri. Scalarea unei arhitecturi după ordine de mărime este notoriu dificilă, dezvăluind adesea provocări neprevăzute precum instabilități de instruire sau peisaje energetice care devin prea complexe pentru a naviga eficient. Prin urmare, rămâne o întrebare deschisă dacă beneficiile de performanță observate la această scară mai mică vor ține sau chiar se va amplifica atunci când sunt aplicate la modelele de frontieră.
În cele din urmă, EBT prezintă un compromis fundamental pentru comunitatea AI: este potențialul pentru un raționament mai robust, asemănător omului, în valoare de o creștere de mai multe ori a costurilor de formare și inferență? Răspunsul va depinde probabil de aplicație. Pentru sarcini științifice sau analitice cu miză mare, prețul poate fi justificat, dar pentru utilizarea cu scop general, analiza cost-beneficiu rămâne o problemă critică și nerezolvată.
, industria mai largă pentru eficiența AI
Conceptul EBT ajunge în timpul unei presiuni largi pentru industrie pentru o eficiență mai mare. Mai multe companii abordează această provocare din diferite unghiuri, subliniind nevoia critică de a reduce costurile imense asociate cu AI-ul pe scară largă
Aceste metode concurente abordează eficiența în diferite etape. Compactifai de la Multiverse comprimă modelul static în sine. NAMM-urile Sakana optimizează cache-ul dinamic KV în timpul inferenței. Bamba IBM folosește o arhitectură hibridă pentru a accelera procesarea secvențelor.
În schimb, EBT-urile modifică fundamental mecanismul de predicție în sine. În loc să optimizeze doar un model finalizat sau memoria acestuia, EBT-urile integrează un proces de „gândire” direct în modul în care se formează fiecare predicție, urmărind o mai bună generalizare și raționament de la început. CEO-ul său, Enrique Lizaso Olmos, a menționat: „Înțelepciunea predominantă este că LLM-urile în scădere costă. Multiverse schimbă asta”. Între timp, modelul BAMBA al IBM vizează viteza de inferență.
, proiectul de proiect al IBM, Raghu Ganti, a explicat strategia: „Totul revine la reducerea cache-ului KV… mai mult randament, o latență mai mică, lungimea contextului mai lung”. Alte inovații, cum ar fi sistemul de optimizare a memoriei Sakana AI, urmăresc, de asemenea, să facă transformatorii mai eficienți. Cercetătorii Sakana au descoperit că „evoluția depășește în mod inerent non-diferența operațiunilor noastre de gestionare a memoriei, care implică rezultate binare„ amintite “sau„ uită “. Pe măsură ce modelele cresc, industria face curse pentru a găsi modalități durabile de a le antrena și de a le implementa. Cercetătorii EBT consideră că munca lor este o parte cheie a acestui viitor, concluzionând că „EBT-urile sunt o nouă paradigmă promițătoare pentru scalarea atât a capacităților de învățare, cât și a gândirii modelelor.”