Një konsorcium i studiuesve të Universitetit dhe Amazon ka zbuluar një arkitekturë të re të AI, transformatorin e bazuar në energji (EBT). Isshtë krijuar për të pajisur modele me aftësi analitike më të ngjashme me njeriun. Qasja synon të fusë”të menduarit e sistemit 2″në AI, i cili shpesh mbështetet në njohjen e shpejtë, intuitive të modelit. Fillon me një zgjidhje të rastit dhe gradualisht e përmirëson atë për të minimizuar një rezultat të llogaritur”energji”. Ndërsa rezultatet e hershme sugjerojnë që EBT-të mund të jenë më efikase të të dhënave, metoda kërkon më shumë llogari. Kjo sfidon paradigmën aktuale të zhvillimit të AI. Puna është e disponueshme në një Page dhe github . src=”të dhëna: imazh/svg+xml; nitro-impty-id=mty0mdoxmty4-1; base64, phn2zyb2awv3qm94psiwidagmti4mca0mj Eiihdpzhropsixmjgwiibozwlnahq9ijqyqyMsigEG1Sbnm9imH0Dha6ly93d3cudzmUB3Jnlziwmdavc3znij48l3n2zz4=”>

nga Intuita në Analizë: Kërkimi për ‘Sistemin 2’ ai

Arkitektura EBT paraqet një zhvendosje themelore larg nga paradigma mbizotëruese e AI. Shumica e modeleve aktuale, duke përfshirë transformatorët standardë, Excel at

Në vend që të prodhojë drejtpërdrejt një përgjigje, modeli fillon me një supozim të rastësishëm, të zhurmshëm. Pastaj përdor parimet e zbritjes së gradientit për të rafinuar në mënyrë të përsëritur këtë supozim, në thelb”duke ecur”atë në zbritje në peizazhin e energjisë së mësuar derisa të vendoset në pikën më të ulët të mundshme, ose”Luginën e Energjisë.”Ky proces përsëritës i rafinimit është thelbi i mekanizmit”të menduarit”të EBT. Ai lejon modelin të eksplorojë një hapësirë ​​të zgjidhjeve të mundshme në vend që të mbyllet në një rrugë të vetme. E para është alokimi dinamik i llogaritjes. Për një problem të thjeshtë, modeli mund të gjejë minimumin e energjisë në vetëm disa hapa. Për një kompleks, mund të ndërmarrë shumë më tepër hapa, duke shpenzuar në mënyrë efektive më shumë”mendim”për problemin.

Fytyra e dytë është aftësia për të modeluar pasigurinë. Një peizazh i energjisë së qetë me një minimum të qartë tregon siguri të lartë. Një peizazh i thyer me shumë lugina lokale sugjeron se modeli është i pasigurt, pasi ekzistojnë përgjigje të shumta të besueshme. Kjo siguron një kuptim më të nuancuar të besimit të vetë modelit.

Së treti, arkitektura përfshin një mekanizëm të brendshëm për verifikimin e parashikimit. Rezultati përfundimtar i energjisë i një parashikimi shërben si një kontroll i integruar i cilësisë. Një rezultat i ulët tregon një përgjigje të verifikuar me cilësi të lartë, ndërsa një rezultat i lartë sinjalizon një të varfër, të gjitha pa pasur nevojë për një model të veçantë verifikues.

Duke integruar këto tre aftësi, EBT synon të krijojë një formë më të fortë dhe të përgjithësuar të arsyetimit. Ai lëviz përtej gjenerimit të thjeshtë të modelit në një proces aktiv, iterativ-zgjidhja e problemeve, duke shënuar një hap të rëndësishëm konceptual në kërkimin e inteligjencës artificiale më të aftë. Ndërsa një transformator standard duhet të mësojë rrugën e drejtpërdrejtë për një përgjigje, një EBT mëson të shënojë”korrektësinë”e çdo përgjigjeje të caktuar-një detyrë më e thjeshtë që duket se përgjithëson në mënyrë më efektive. Gazeta e tyre raporton se EBTS shkallëzon në mënyrë më efikase sesa baza fillestare e përparuar e transformatorit ++, duke treguar deri në një normë shkallëzimi më të lartë 35% në lidhje me të dhënat.

Efikasiteti i përmirësuar i të dhënave është veçanërisht i rëndësishëm. Sugjeron që në shkallë, një EBT mund të arrijë të njëjtën performancë si një transformator standard ndërsa trajnon në të dhëna dukshëm më pak. Në një epokë ku industria po i afrohet kufijve të të dhënave të trajnimit me cilësi të lartë të disponueshme në internet, zhvillimi i më shumë arkitekturave me efikasitet të të dhënave është një qëllim kritik strategjik për përparimin e vazhdueshëm të AI. Së pari, modeli mund të kryejë më shumë hapa përsëritës të rafinimit në një parashikim të vetëm, duke i kushtuar në mënyrë efektive më shumë llogaritjes për një problem të vështirë. Së dyti, ai mund të gjenerojë disa përgjigje të kandidatëve dhe të përdorë funksionin e saj të brendshëm të energjisë për të vetë-verifikuar dhe për të zgjedhur atë me energjinë më të ulët, duke treguar pajtueshmërinë më të lartë. Kjo rritje e performancës është më e theksuar në detyrat jashtë shpërndarjes (OOD)-probleme që ndryshojnë nga të dhënat e trajnimit. Duke”menduar”më gjatë në konkluzion, EBT-të përmirësuan performancën e detyrës gjuhësore deri në 29%. Kjo sugjeron që procesi iterativ u lejon atyre të arsyetojnë më fuqishëm në situata të reja ku modelet standarde mund të mbështeten në përputhjen e modelit të metë. Trajnimi i këtyre modeleve aktualisht kërkon midis 3.3 dhe 6.6 herë më shumë operacione të pikave lundruese (FLOP) sesa transformatorët standardë. Kjo përmbysje e konsiderueshme nuk është thjesht një shqetësim teorik; Ajo paraqet një pengesë të konsiderueshme për adoptimin, duke kufizuar potencialisht hulumtimin dhe zhvillimin e EBT vetëm në laboratorët akademikë më të financuar mirë dhe korporatat e mëdha të teknologjisë me burime të mëdha llogaritëse. Për dallim nga kalimi i vetëm përpara i një modeli standard, çdo hap rafinimi në një EBT përfshin llogaritjet komplekse të gradientit për të përcaktuar drejtimin e”mendimit”tjetër. Ky proces, i cili kërkon llogaritjen e derivateve të rendit të dytë (ose përafrime efikase si produktet Hessian-Vector), është thelbësisht më intensiv. Ekipi e pranon se kjo është një fushë kryesore për punën e optimizmit në të ardhmen, pasi bërja e këtij procesi ‘të menduarit’ më të lirë është thelbësore për vendosjen praktike. Kjo është një pjesë e madhësisë së sistemeve më të mëdha të sotme të AI, të cilat shpesh tejkalojnë qindra miliarda parametra. Shkallëzimi i një arkitekture me urdhër të madhësisë është jashtëzakonisht e vështirë, shpesh duke zbuluar sfida të paparashikuara si paqëndrueshmëria e trajnimit ose peizazhet e energjisë që bëhen shumë komplekse për të lundruar në mënyrë efektive. Prandaj, mbetet një pyetje e hapur nëse përfitimet e performancës të vërejtura në këtë shkallë më të vogël do të mbajnë, apo edhe të amplifikojnë, kur aplikohen në modelet kufitare. Përgjigja ka të ngjarë të varet nga aplikacioni. Për detyra shkencore ose analitike me aksione të larta, çmimi mund të jetë i justifikuar, por për përdorim me qëllime të përgjithshme, analiza e kostos-përfitimit mbetet një çështje kritike dhe e pazgjidhur. Disa kompani po e trajtojnë këtë sfidë nga këndvështrime të ndryshme, duke theksuar nevojën kritike për të zvogëluar kostot e jashtëzakonshme që lidhen me AI në shkallë të gjerë.

Këto metoda konkurruese trajtojnë efikasitetin në faza të ndryshme. Compactifai i Multiverse kompreson vetë modelin statik. NAMMS i Sakana optimizon cache dinamike të KV gjatë konkluzionit. Bamba e IBM përdor një arkitekturë hibride për të shpejtuar përpunimin e sekuencave. Në vend që thjesht të optimizojë një model të përfunduar ose kujtesën e tij, EBTS integrojnë një proces”të menduarit”drejtpërdrejt në mënyrën se si formohet çdo parashikim, duke synuar përgjithësim dhe arsyetim më të mirë nga toka lart. Drejtori i Përgjithshëm i saj, Enrique Lizaso Olmos, vuri në dukje,”Urtësia mbizotëruese është se tkurrja LLMS vjen me një kosto. Multiverse po ndryshon atë”. Ndërkohë, modeli Bamba i IBM synon shpejtësinë e konkluzionit. Risi të tjera, si sistemi i optimizmit të kujtesës së Sakana AI, gjithashtu synojnë t’i bëjnë transformatorët më efikas. Studiuesit e Sakana zbuluan se”evolucioni në mënyrë të natyrshme kapërcen jo-diferencimin e operacioneve tona të menaxhimit të kujtesës, të cilat përfshijnë rezultatet binare”të kujtojnë”ose”harrojnë”.”Ndërsa modelet rriten, industria po garon për të gjetur mënyra të qëndrueshme për t’i trajnuar dhe vendosur ato. Studiuesit e EBT besojnë se puna e tyre është një pjesë kryesore e kësaj të ardhme, duke konkluduar se”EBT-të janë një paradigmë e re premtuese për shkallëzimin e aftësive mësimore dhe të të menduarit të modeleve.”