Yliopiston ja Amazonin tutkijoiden konsortio on julkistanut uuden AI-arkkitehtuurin, energiapohjaisen muuntajan (EBT). Se on suunniteltu varustamaan malleja ihmisen kaltaisilla analyyttisillä taitoilla. Lähestymistavan tavoitteena on saada “järjestelmä 2 ajattelu” AI: hen, joka riippuu usein nopeaan, intuitiiviseen kuvion tunnistukseen. Se alkaa satunnaisliuoksella ja parantaa sitä vähitellen lasketun “energia”-pistemäärän minimoimiseksi. Vaikka varhaiset tulokset viittaavat siihen, että EBT: t voisivat olla tietotehokkaampia, menetelmä vaatii enemmän laskentaa.

Projektin ydinkysymys, kuten tutkijat esittävät, on: “Onko mahdollista yleistää nämä järjestelmän 2 ajattelumenetelmät ja kehittää malleja, jotka oppivat ajattelemaan pelkästään palvelemattomasta oppimisesta?”Tämä haastaa AI-kehityksen nykyisen paradigman. Teos on saatavana Projektisivu ja github . src=”data: kuva/svg+xml; nitro-tyhjennys-id=mty0mdoxmty4-1; base64, phn2zyb2awv3qm94psiwidagmti4mca0mj EIIHDPZHRopSIXMJGWIIBOZWLNAHQ9IJQYMSIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”>

intuitiosta analyysiin: EBT-arkkitehtuuri’System 2’Ai

EBREST’2’AI

perustana on perustavanlaatuista siirtymistä hallitsevasta AI-paradigmasta. Suurin osa nykyisistä malleista, mukaan lukien standardimuuntajat, excel osoitteessa mikä Nobel-palkinnon saaja Daniel Kahneman kutsui”järjestelmää 1 ajattelua” Tämä on fluentti, joka on fluenti, joka on fluenti, joka on fluent, joka on fluent, joka on fluent, joka on fluen. Teksti tai tunnista kuvat melkein heti.

Nämä mallit kuitenkin horjuvat usein tehtävissä, jotka vaativat “järjestelmä 2 ajattelua”-hitaampia, tarkoituksellisia ja analyyttisiä päättelyjä, joita ihmiset käyttävät monimutkaisten ongelmien, kuten monivaiheisen matematiikan tai loogisten palapelien kanssa. EBT-kehys on suora yritys rakentaa tämä syvempi kognitiivinen prosessi suoraan mallin arkkitehtuuriin.

Sydämessä EBT-ennustaminen optimointipalapelinä. Vakiomuuntaja ottaa sisääntulon ja tuottaa lähdön yhdessä, deterministisessä eteenpäin suuntautuvassa passissa. Sitä vastoin EBT oppii monimutkaisen, korkean ulottuvuuden “energiamaisemaa” kaikille mahdollisille ennusteille, jotka liittyvät tiettyyn kontekstiin.

vastauksen tuottamisen sijaan malli alkaa satunnaisella, meluisella arvauksella. Sitten se käyttää gradientin laskeutumisen periaatteita tarkentaakseen tätä arvausta iteratiivisesti,”kävelee”sitä alamäkeen oppineessa energiamaisemassa, kunnes se asettuu alhaisimpaan mahdolliseen pisteeseen tai “Energy Valley”. Tämä iteratiivinen hienosäätöprosessi on EBT: n”ajattelu”-mekanismin ydin. Sen avulla malli voi tutkia potentiaalisten ratkaisujen tilaa sen sijaan, että se on lukittu yhdelle polulle.

Tämä lähestymistapa on suunniteltu ilmentämään kognition kolme avainastetta, joita usein puuttuu vakiomalleissa. Ensimmäinen on dynaaminen laskentajako. Yksinkertaisen ongelman saavuttamiseksi malli saattaa löytää energian minimin vain muutamassa vaiheessa. Kompleksin kannalta se voi ottaa paljon enemmän askeleita, viettäen tehokkaasti enemmän”ajatusta”ongelmaan.

Toinen puoli on kyky mallintaa epävarmuutta. Sileä energiamaisema, jolla on yksi selkeä minimi, osoittaa suurta varmuutta. Kestävä maisema monien paikallisten laaksojen kanssa viittaa siihen, että malli on epävarma, koska on olemassa useita uskottavia vastauksia. Tämä tarjoaa vivahteellisemman ymmärryksen mallin omasta luottamuksesta. Ennusteen lopullinen energiapiste toimii sisäänrakennetun laadun tarkistuksena. Matala pistemäärä osoittaa korkealaatuista, todennetun vastauksen, kun taas korkea pistemäärä merkitsee huonoa, kaikki tarvitsematta erillistä todennusmallia.

integroimalla nämä kolme ominaisuutta, EBT: n tavoitteena on luoda vahvampi ja yleistettävä päättelymuoto. Se siirtyy yksinkertaisen kuvioiden luomiseen aktiivisen, iteratiivisen ongelmanratkaisun prosessiin, mikä merkitsee merkittävää käsitteellistä vaihetta pyrkiessään kykenevämpaan tekoälyyn.

kuinka energiapohjaiset muuntajat’ajattelee’

Tutkijat väittävät, että tämä lähestymistapa tuottaa merkittävän skaalaamisen edut, mikä on määritelty yksi ydinperiaate: Vaikka vakiomuuntajan on opittava suora polku vastaukseen, EBT oppii pisteyttämään minkä tahansa vastauksen”oikeellisuuden”-yksinkertaisemman tehtävän, joka näyttää yleistävän tehokkaammin. Heidän paperinsa raportoivat, että EBTS-asteikko on tehokkaampi kuin Advanced Transformer ++-lähtökohta, osoittaen jopa 35%: n korkeamman skaalausnopeuden tietojen suhteen.

Parannettu tiedon tehokkuus on erityisen huomionarvoinen. Se viittaa siihen, että mittakaavassa EBT voisi saavuttaa saman suorituskyvyn kuin standardimuuntaja harjoittaessaan huomattavasti vähemmän tietoja. Aikakaudella, jolloin teollisuus lähestyy verkossa käytettävissä olevien korkealaatuisten koulutustietojen rajoja, tietotehokkaampien arkkitehtuurien kehittäminen on kriittinen strateginen tavoite jatkuvan AI-etenemisen kannalta.

tällainen “ajattelu”ilmenee kahdella keskeisellä tavalla päätelmän aikana. Ensinnäkin malli voi suorittaa iteratiivisempia hienosäätövaiheita yhdellä ennusteella, omistaen tehokkaasti enemmän laskentaa vaikeaan ongelmaan. Toiseksi, se voi tuottaa useita ehdokasvastauksia ja käyttää sen sisäistä energiatoimintoa itse varmentamaan ja valita pienin energia, mikä osoittaa korkeimman yhteensopivuuden. Tämä suorituskyvyn lisäys on voimakkaimmin jakeluun (OOD) tehtävissä-ongelmissa, jotka eroavat koulutustiedoista.

johtava kirjailija Alexi Gladstone toteaa, että “energiapohjaiset muuntajat ovat ensimmäinen lähestymistapa ulkomaalaisten syöttömuutosten ylittämiseen muodoissa ja useissa akseleissa, mukaan lukien tiedot, syvyys, parametrit, flops jne.””Ajattelemalla”pidempään päättelyssä EBT: t paransivat kielten tehtävien suorituskykyä jopa 29%. Tämä viittaa siihen, että iteratiivinen prosessi antaa heille mahdollisuuden perustella vankemmin uusissa tilanteissa, joissa vakiomallit saattavat luottaa virheellisiin kuvioiden sovittamiseen.

lupaava suorituskyky, mutta merkittävinä kustannuksilla

Lupaavista tuloksista huolimatta EBT-arkkitehtuuri on suuri este: laskentakustannukset. Näiden mallien koulutus vaatii tällä hetkellä 3,3-6,6 kertaa enemmän kelluvaa pistettä (FLOPS) kuin standardimuuntajat. Tämä merkittävä yleiskustannus ei ole vain teoreettinen huolenaihe; Se aiheuttaa merkittävän esteen adoptiolle, mahdollisesti rajoittaen EBT-tutkimusta ja kehitystä vain hyvin rahoitetuimpiin akateemisiin laboratorioihin ja suuriin teknologiayrityksiin, joilla on laajat laskennalliset resurssit.

Korkean floppivaatimus johtuu suoraan iteratiivisesta optimointiprosessista EBT: n suunnittelun ytimessä. Toisin kuin standardimallin yksittäisen eteenpäin suuntautuvan siirron, jokainen EBT: n hienosäätövaihe sisältää monimutkaisia ​​gradienttilaskelmia seuraavan’ajatuksen’suunnan määrittämiseksi. Tämä prosessi, joka vaatii toisen asteen johdannaisten laskemista (tai tehokkaita likiarvoja, kuten Hessian-vektorituotteita), on pohjimmiltaan intensiivisempi. Ryhmä myöntää, että tämä on avainalue tulevalle optimointityölle, koska tämän”ajattelun”prosessin tekeminen on välttämätöntä käytännön käyttöönotolle.

Lisäksi alkuperäiset kokeet suoritettiin malleissa, joissa oli jopa 800 miljoonaa parametria. Tämä on murto-osa nykypäivän suurimpien AI-järjestelmien koosta, jotka ylittävät usein satoja miljardeja parametreja. Arkkitehtuurin skaalaaminen suuruusluokoilla on tunnetusti vaikeaa, paljastaen usein odottamattomia haasteita, kuten koulutus epävakautta tai energiamaisemaa, joista tulee liian monimutkaisia ​​navigoimiseksi tehokkaasti. Siksi on edelleen avoin kysymys, pitävätkö tässä pienemmässä mittakaavassa havaitut suorituskyvyn edut, vai jopa vahvistuvat, kun sitä sovelletaan rajamalleihin.

Viime kädessä EBT: llä on AI-yhteisölle perustavanlaatuinen kompromissi: Onko potentiaali vankeimpiin, ihmisen kaltaisiin päättelyihin, jotka ovat arvokkaampien lisääntymisen ja päätelmien kustannusten arvoista? Vastaus riippuu todennäköisesti hakemuksesta. Korkean panoksen tieteellisille tai analyyttisille tehtäville hinta voi olla perusteltua, mutta yleiskäyttöön tarkoitettujen kustannus-hyötyanalyysi on edelleen kriittinen ja ratkaisematon kysymys.

Laajempi teollisuus pyrkii AI-tehokkuuteen

EBT Useat yritykset torjuvat tämän haasteen eri kulmista ja korostavat kriittistä tarvetta vähentää laaja-alaiseen AI: hen liittyviä valtavia kustannuksia.

Nämä kilpailevat menetelmät torjuvat tehokkuuden eri vaiheissa. Multiverse’s Compactifai puristaa itse staattisen mallin. Sakanan nammit optimoivat dynaamisen KV-välimuistin päätelmien aikana. IBM: n Bamba käyttää hybridi-arkkitehtuuria sekvenssin prosessoinnin nopeuttamiseksi. Sen sijaan, että optimoisi vain valmiin mallin tai sen muistin, EBT: t integroivat “ajattelu”-prosessin suoraan siihen, miten kukin ennuste muodostuu, pyrkiessä parempaan yleistykseen ja päättelyyn alusta alkaen.

Esimerkiksi Espanjan startup Multiverse Computing keskittyy mallin pakkaukseen. Sen toimitusjohtaja Enrique Lizaso Olmos totesi:”Vallitseva viisaus on, että kutistuvat LLM: t ovat kustannuksia. Multiverse muuttaa sitä.”Samaan aikaan IBM: n BAMBA-malli kohdistuu päätelmänopeuteen. Muiden innovaatioiden, kuten Sakana AI: n muistin optimointijärjestelmä, pyrkivät myös tekemään muuntajista tehokkaampaa. Sakanan tutkijat totesivat, että “evoluutio ylittää luonnostaan ​​muistinhallintaoperaatioidemme erottamattomuuden, johon sisältyy binaarinen’muista’tai’unohtaa’tuloksia.”

Nämä monipuoliset lähestymistavat osoittavat muutoksen AI-kehityksessä. Mallien kasvaessa teollisuus kilpailee löytääkseen kestäviä tapoja kouluttaa ja ottaa ne käyttöön. EBT-tutkijoiden mielestä heidän työnsä on avainosa tätä tulevaisuutta, ja päättelee, että “EBT: t ovat lupaava uusi paradigma sekä mallien oppimisen että ajatteluominaisuuksien skaalaamiseksi.”

Categories: IT Info