A Tencent AI Lab kutatói bemutattak egy új mesterséges intelligencia-keretrendszert, amelyet a jelenlegi nagy nyelvi modellek sebességkorlátozásának leküzdésére terveztek.

A rendszer részletezése egy ezen a héten online közzétett cikkben található, a rendszer neve CALM, folyamatos autoregresszív nyelvi modellekhez. Közvetlenül megkérdőjelezi a lassú, tokenről-tokenre ható folyamatot, amely manapság a legtöbb generatív mesterséges intelligencia hajtóereje.

Ahelyett, hogy egyszerre csak egy kis szórészletet jósolna meg, a CALM megtanulja megjósolni egyetlen vektort, amely egy egész szövegrészt reprezentál. Ezzel a módszerrel a mesterséges intelligencia generálása sokkal gyorsabbá és hatékonyabbá válhat, és új utat nyithat meg a modellek méretezéséhez.

A token zsarnoksága: A mesterséges intelligencia alapjainak modernségeAhneckAutoregressive Bottle Az LLM-ek az autoregresszív, tokenről-token generálásra támaszkodnak. Ez a szekvenciális függőség a legnagyobb szűk keresztmetszet, amely korlátozza az AI sebességét és méretezhetőségét.

Egy hosszú cikk létrehozásához több ezer egymást követő előrejelzési lépésre van szükség, ami számításilag költségessé és lassúvá teszi a folyamatot. Ez nem csak akadémiai probléma; ezért a nagy teljesítményű modellek használata költséges, és a valós idejű, hosszú idejű generálás továbbra is kihívást jelent.

Ez a hatékonysági probléma az AI-fejlesztők központi csataterévé vált. Ahogy a Google Research korábban megjegyezte, „mivel több felhasználónál alkalmazzuk ezeket a modelleket, kritikus kihívást jelent a gyorsabbá és olcsóbbá tételük a minőség feláldozása nélkül.”

Az iparág számos megoldást vizsgált, a Google spekulatív kaszkádjaitól az új tömörítési technikákig. Tencent munkája most egy radikálisabb megoldást javasol.

A tanulmány az ultrahatékony nyelvi modellek új osztályának tervezetét javasolja, valamint a sebesség token által kiváltott szűk keresztmetszetét.

A cél az előrejelzés mértékegységének alapvető megváltoztatása egyetlen, kevés információval rendelkező token helyett valami sokkal gazdagabbra. Tokenek

A generatív mesterséges intelligencia status quo-ja elleni közvetlen kihívásként a CALM teljesen átvázolja az előrejelzési feladatot. A kutatók új skálázási tengelyt javasolnak az LLM-ek számára.

Azzal érvelünk, hogy ennek a szűk keresztmetszetnek a leküzdéséhez új tervezési tengelyre van szükség az LLM-skálázáshoz: meg kell növelni az egyes generatív lépések szemantikai sávszélességét.

E”szemantikai sávszélesség”növelésével a modell egyetlen lépésben több információt tud feldolgozni. A CALM ezt egy innovatív, kétlépcsős folyamaton keresztül éri el, amely folyamatos, nem pedig különálló térben működik.

A CALM tervezésének középpontjában egy nagy pontosságú automatikus kódoló áll. Ez a komponens megtanul K tokent – ​​például négy tokent – ​​egyetlen, sűrű folytonos vektorba tömöríteni.

Lényeges, hogy ebből a vektorból több mint 99,9%-os pontossággal képes rekonstruálni az eredeti tokeneket. Ezután egy külön nyelvi modell autoregresszív predikciót hajt végre ebben az új vektortérben.

A projekt hivatalos dokumentációja szerint „egy diszkrét token előrejelzése helyett a CALM megtanulja megjósolni egyetlen folytonos vektort, amely egy folytonos vektort reprezentál.. K-szorosára csökkenti a generatív lépések számát, ami jelentős hatékonyságnövekedéshez vezet.

A Valószínűségmentes eszköztár: Hogyan tanulja meg a CALM és méri a sikert

A diszkrét tokenekről a folytonos vektorokra való áttérés komoly kihívást jelent: a modell már nem tud explicit softmax-eloszlást kiszámítani az összes lehetséges rétegre kiterjedően.

Ez alkalmazhatatlanná teszi a hagyományos képzési és értékelési módszereket, amelyek a valószínűségek kiszámításán alapulnak. Ennek megoldására a Tencent csapata egy átfogó, valószínűségmentes keretrendszert dolgozott ki.

A képzéshez a CALM Energy-Based Training módszert alkalmaz, amely szigorúan megfelelő pontozási szabályt használ a modell irányításához anélkül, hogy valószínűségeket kellene kiszámítani.

Az értékeléshez a kutatók bevezették a BrierLM nevű új mérőszámot. Eltávolodva az olyan hagyományos mérőszámoktól, mint a zavarodottság, a BrierLM a Brier-pontszámból származik, amely egy valószínűségi előrejelzés eszköze.

Lehetővé teszi a modell képességeinek tisztességes, mintaalapú összehasonlítását azáltal, hogy ellenőrzi, hogy az előrejelzések mennyire illeszkednek a valósághoz. Ez a módszer tökéletesen alkalmas olyan modellekre, ahol a valószínűségek kezelhetetlenek.

Hatékonyság

Ennek az új architektúrának a gyakorlati hatása egy kiváló teljesítmény-számítási kompromisszum.

A CALM-modell 44%-kal csökkenti a képzési számítási követelményeket, és 33%-kal csökkenti a következtetéseket az erős alapértékhez képest. Ez azt bizonyítja, hogy az egyes lépések szemantikai sávszélességének skálázása egy új, erőteljes eszköz a számítási hatékonyság javításához.

A munka a CALM-ot jelentős versenyzőként helyezi el a gyorsabb, olcsóbb és elérhetőbb mesterségesintelligencia megépítésére irányuló iparági versenyben.

A Google olyan módszerekkel kezeli az AI sebességproblémáját, mint a spekulatív tanulási módszerek. Más induló vállalkozások, mint például az Inception, teljesen más architektúrákat, például diffúziós LLM-eket vizsgálnak a „Mercury Coder”-jában, hogy elkerüljék az autoregresszió „strukturális szűk keresztmetszetét”.

Ezek a változatos megközelítések együttesen rávilágítanak a mesterséges intelligencia fejlesztésének változására. Az ipar a pusztán a méretre összpontosításról az intelligensebb, gazdaságilag életképes mesterséges intelligencia fenntarthatóbb törekvése felé mozdul el. A CALM vektor alapú megközelítése új utat kínál ezen a téren.

Categories: IT Info