A Tencent AI Lab kutatói bemutattak egy új mesterséges intelligencia-keretrendszert, amelyet a jelenlegi nagy nyelvi modellek sebességkorlátozásának leküzdésére terveztek.
A rendszer részletezése egy ezen a héten online közzétett cikkben található, a rendszer neve CALM, folyamatos autoregresszív nyelvi modellekhez. Közvetlenül megkérdőjelezi a lassú, tokenről-tokenre ható folyamatot, amely manapság a legtöbb generatív mesterséges intelligencia hajtóereje.
Ahelyett, hogy egyszerre csak egy kis szórészletet jósolna meg, a CALM megtanulja megjósolni egyetlen vektort, amely egy egész szövegrészt reprezentál. Ezzel a módszerrel a mesterséges intelligencia generálása sokkal gyorsabbá és hatékonyabbá válhat, és új utat nyithat meg a modellek méretezéséhez.
A token zsarnoksága: A mesterséges intelligencia alapjainak modernségeAhneckAutoregressive Bottle Az LLM-ek az autoregresszív, tokenről-token generálásra támaszkodnak. Ez a szekvenciális függőség a legnagyobb szűk keresztmetszet, amely korlátozza az AI sebességét és méretezhetőségét.
Egy hosszú cikk létrehozásához több ezer egymást követő előrejelzési lépésre van szükség, ami számításilag költségessé és lassúvá teszi a folyamatot. Ez nem csak akadémiai probléma; ezért a nagy teljesítményű modellek használata költséges, és a valós idejű, hosszú idejű generálás továbbra is kihívást jelent.
Ez a hatékonysági probléma az AI-fejlesztők központi csataterévé vált. Ahogy a Google Research korábban megjegyezte, „mivel több felhasználónál alkalmazzuk ezeket a modelleket, kritikus kihívást jelent a gyorsabbá és olcsóbbá tételük a minőség feláldozása nélkül.”
Az iparág számos megoldást vizsgált, a Google spekulatív kaszkádjaitól az új tömörítési technikákig. Tencent munkája most egy radikálisabb megoldást javasol.
A tanulmány az ultrahatékony nyelvi modellek új osztályának tervezetét javasolja, valamint a sebesség token által kiváltott szűk keresztmetszetét.
A cél az előrejelzés mértékegységének alapvető megváltoztatása egyetlen, kevés információval rendelkező token helyett valami sokkal gazdagabbra. Tokenek
A generatív mesterséges intelligencia status quo-ja elleni közvetlen kihívásként a CALM teljesen átvázolja az előrejelzési feladatot. A kutatók új skálázási tengelyt javasolnak az LLM-ek számára.
Azzal érvelünk, hogy ennek a szűk keresztmetszetnek a leküzdéséhez új tervezési tengelyre van szükség az LLM-skálázáshoz: meg kell növelni az egyes generatív lépések szemantikai sávszélességét.
E”szemantikai sávszélesség”növelésével a modell egyetlen lépésben több információt tud feldolgozni. A CALM ezt egy innovatív, kétlépcsős folyamaton keresztül éri el, amely folyamatos, nem pedig különálló térben működik.
A CALM tervezésének középpontjában egy nagy pontosságú automatikus kódoló áll. Ez a komponens megtanul K tokent – például négy tokent – egyetlen, sűrű folytonos vektorba tömöríteni.
Lényeges, hogy ebből a vektorból több mint 99,9%-os pontossággal képes rekonstruálni az eredeti tokeneket. Ezután egy külön nyelvi modell autoregresszív predikciót hajt végre ebben az új vektortérben.
A projekt hivatalos dokumentációja szerint „egy diszkrét token előrejelzése helyett a CALM megtanulja megjósolni egyetlen folytonos vektort, amely egy folytonos vektort reprezentál.>. K-szorosára csökkenti a generatív lépések számát, ami jelentős hatékonyságnövekedéshez vezet.
A Valószínűségmentes eszköztár: Hogyan tanulja meg a CALM és méri a sikert
A diszkrét tokenekről a folytonos vektorokra való áttérés komoly kihívást jelent: a modell már nem tud explicit softmax-eloszlást kiszámítani az összes lehetséges rétegre kiterjedően.
Ez alkalmazhatatlanná teszi a hagyományos képzési és értékelési módszereket, amelyek a valószínűségek kiszámításán alapulnak. Ennek megoldására a Tencent csapata egy átfogó, valószínűségmentes keretrendszert dolgozott ki.
A képzéshez a CALM Energy-Based Training módszert alkalmaz, amely szigorúan megfelelő pontozási szabályt használ a modell irányításához anélkül, hogy valószínűségeket kellene kiszámítani.
Az értékeléshez a kutatók bevezették a BrierLM nevű új mérőszámot. Eltávolodva az olyan hagyományos mérőszámoktól, mint a zavarodottság, a BrierLM a Brier-pontszámból származik, amely egy valószínűségi előrejelzés eszköze.
Lehetővé teszi a modell képességeinek tisztességes, mintaalapú összehasonlítását azáltal, hogy ellenőrzi, hogy az előrejelzések mennyire illeszkednek a valósághoz. Ez a módszer tökéletesen alkalmas olyan modellekre, ahol a valószínűségek kezelhetetlenek.
Hatékonyság
Ennek az új architektúrának a gyakorlati hatása egy kiváló teljesítmény-számítási kompromisszum.
A CALM-modell 44%-kal csökkenti a képzési számítási követelményeket, és 33%-kal csökkenti a következtetéseket az erős alapértékhez képest. Ez azt bizonyítja, hogy az egyes lépések szemantikai sávszélességének skálázása egy új, erőteljes eszköz a számítási hatékonyság javításához.
A munka a CALM-ot jelentős versenyzőként helyezi el a gyorsabb, olcsóbb és elérhetőbb mesterségesintelligencia megépítésére irányuló iparági versenyben.
A Google olyan módszerekkel kezeli az AI sebességproblémáját, mint a spekulatív tanulási módszerek. Más induló vállalkozások, mint például az Inception, teljesen más architektúrákat, például diffúziós LLM-eket vizsgálnak a „Mercury Coder”-jában, hogy elkerüljék az autoregresszió „strukturális szűk keresztmetszetét”.
Ezek a változatos megközelítések együttesen rávilágítanak a mesterséges intelligencia fejlesztésének változására. Az ipar a pusztán a méretre összpontosításról az intelligensebb, gazdaságilag életképes mesterséges intelligencia fenntarthatóbb törekvése felé mozdul el. A CALM vektor alapú megközelítése új utat kínál ezen a téren.