Studiuesit në Tencent AI Lab kanë zbuluar një kornizë të re të AI të krijuar për të thyer kufijtë e shpejtësisë së modeleve aktuale të gjuhëve të mëdha.
I detajuar në një punim të botuar në internet këtë javë, sistemi quhet CALM, për Modelet e Gjuhës Autoregresive të Vazhdueshme. Ajo sfidon drejtpërdrejt procesin e ngadaltë, shenjë pas argumenti, që fuqizon shumicën gjeneruese të AI sot.
Në vend që të parashikojë një pjesë të vogël të një fjale në të njëjtën kohë, CALM mëson të parashikojë një vektor të vetëm që përfaqëson një pjesë të tërë teksti. Kjo metodë mund ta bëjë gjenerimin e AI shumë më të shpejtë dhe më efikas, duke hapur një rrugë të re për shkallëzimin e modeleve.
Tyranny of the Token: Bottleneck Autoregressive’s AI
Një dobësi themelore e LLM-ve moderne është mbështetja e tyre në gjenerimin autoregresiv, shenjë për shenjë. Kjo varësi vijuese është pengesa e vetme më e madhe që kufizon shpejtësinë dhe shkallëzueshmërinë e AI.
Gjenerimi i një artikulli të gjatë kërkon mijëra hapa të njëpasnjëshëm parashikimi, duke e bërë procesin llogaritësisht të shtrenjtë dhe të ngadaltë. Ky nuk është vetëm një problem akademik; kjo është arsyeja pse përdorimi i modeleve të fuqishme është i kushtueshëm dhe në kohë reale, gjenerimi në formë të gjatë mbetet një sfidë.
Ky problem i efikasitetit është bërë një fushë beteje qendrore për zhvilluesit e AI. Siç vuri në dukje më parë Google Research, “ndërsa i vendosim këto modele për më shumë përdorues, duke i bërë ato më të shpejta dhe më pak të kushtueshme pa sakrifikuar cilësinë është një sfidë kritike.”
Industria ka eksploruar zgjidhje të shumta, nga kaskadat spekulative të Google deri te teknikat e reja të kompresimit. Tani, puna e Tencent propozon një zgjidhje më radikale.
Dokumenti propozon një plan për një klasë të re të modeleve gjuhësore ultra-efikase dhe për pengesën e nxitur nga shenjat për shpejtësinë.
Qëllimi është që të ndryshohet rrënjësisht njësia e parashikimit nga një shenjë e vetme, me informacion të ulët, në diçka shumë më të pasur
Në një sfidë të drejtpërdrejtë ndaj status quo-së së AI gjeneruese, CALM riformulon tërësisht detyrën e parashikimit. Studiuesit propozojnë për një bosht të ri shkallëzimi për LLM-të.
“Ne argumentojmë se tejkalimi i kësaj pengese kërkon një bosht të ri dizajni për shkallëzimin e LLM: rritjen e gjerësisë së brezit semantik të çdo hapi gjenerues,”shkruajnë ata në punim.
Duke rritur këtë”informacion të vetëm semantik”në një model të vetëm brezwi mund të rritet. CALM e arrin këtë nëpërmjet një procesi inovativ me dy faza që funksionon në një hapësirë të vazhdueshme dhe jo diskrete.
Në qendër të dizajnit të CALM është një kodues automatik me besnikëri të lartë. Ky komponent mëson të ngjesh një pjesë të shenjave K-për shembull, katër shenja-në një vektor të vetëm dhe të dendur të vazhdueshëm.
Në mënyrë thelbësore, ai mund të rindërtojë shenjat origjinale nga ky vektor me mbi 99,9% saktësi. Një model i veçantë gjuhësor kryen më pas parashikimin autoregresiv në këtë hapësirë të re vektoriale.
Sipas dokumentacionit zyrtar të projektit,”në vend që të parashikohet një shenjë diskrete në të njëjtën kohë, KALM përfaqëson një parashikues të vetëm të vazhdueshëm të një vektori të tërë që mëson tochunkun e tij. argumentet.”
Kjo redukton numrin e hapave gjenerues me një faktor K, duke çuar në fitime të konsiderueshme të efikasitetit.
Paketa e mjeteve pa gjasa: Si mëson CALM dhe mat suksesin
Lëvizja nga argumentet diskrete nuk mund të prezantojë më një model të përputhshmërisë në një vektor të vazhdueshëm, nuk mund të prezantojë më një model të përputhshmërisë në një model të vazhdueshëm: mbi të gjitha rezultatet e mundshme duke përdorur një shtresë standarde softmax.
Kjo i bën të pazbatueshme metodat tradicionale të trajnimit dhe vlerësimit, të cilat mbështeten në llogaritjen e gjasave. Për ta zgjidhur këtë, ekipi i Tencent zhvilloi një kornizë gjithëpërfshirëse, pa gjasa.
Për trajnimin, CALM përdor një metodë trajnimi të bazuar në energji, e cila përdor një rregull rreptësisht të duhur të pikës për të drejtuar modelin pa pasur nevojë të llogariten probabilitetet.
Për vlerësim, studiuesit prezantuan një metrikë të re të quajtur BrierLM. Duke u larguar nga metrikat tradicionale si hutimi, BrierLM rrjedh nga rezultati Brier, një mjet nga parashikimi probabilistik.
Ai lejon një krahasim të drejtë, të bazuar në mostra të aftësive të modelit, duke kontrolluar se sa mirë janë parashikimet në përputhje me realitetin, një metodë e përshtatshme për modelet ku gjasat janë të vështira për t’u përmirësuar.
Gara për efikasitet
Ndikimi praktik i kësaj arkitekture të re është një kompromis i lartë i performancës së llogaritjes.
Modeli CALM redukton kërkesat llogaritëse të trajnimit me 44% dhe konkluzionet me 33% krahasuar me një bazë të fortë. Kjo tregon se shkallëzimi i gjerësisë së brezit semantik të çdo hapi është një levë e re e fuqishme për përmirësimin e efikasitetit llogaritës.
Puna e pozicionon CALM-in si një konkurrent të rëndësishëm në garën në mbarë industrinë për të ndërtuar AI më të shpejtë, më të lirë dhe më të aksesueshme.
Google ka trajtuar metodat e shpejta dhe specifike të teknologjisë artificiale si AI. Të mësuarit. Fillesa të tjera, si Inception, po eksplorojnë arkitektura krejtësisht të ndryshme si LLM-të e bazuara në difuzion në “Mercury Coder” për t’i shpëtuar”fyellit të ngushtë strukturor”të autoregresionit.
Së bashku, këto qasje të ndryshueshme në zhvillim të lartë AI. Industria po lëviz nga një fokus i pastër në shkallë në një ndjekje më të qëndrueshme të inteligjencës artificiale më të zgjuar dhe më të qëndrueshme ekonomikisht. Qasja e bazuar në vektor të CALM ofron një rrugë të re përpara në atë front.