Kuaishou, egy kiemelkedő rövid videó platform Pekingben, a múlt héten mutatta be a nagyközönségnek saját fejlesztésű, KwaiYii nevű nagy nyelvi modelljét egy a TechNode jelentése. Ezenkívül a vállalat bemutatta a Spiking Neural Networks kutatását és a SpikeGPT fejlesztését.
Ez a kiadás egy bétatesztelési szakasz után jelenik meg augusztus 18-án indult el egy ChatGPT-szerű szolgáltatás Android-eszközök számára. A 13 milliárd KwaiYii-ben gyökerező paraméterrel büszkélkedő párbeszéd-szolgáltatás tartalomkészítési, konzultációs és problémamegoldó képességében vetekszik az OpenAI GPT-3.5-tel.
Az LLM részletes leírása a KwaiYii GitHub oldalán található. Kuaishou mesterséges intelligencia chatbotjának elsődleges alkalmazása a keresés volt, a platform eredeti tartalmát felhasználva a mesterséges intelligencia „hallucinációinak” – a nem megfelelő adatképzésből adódó pontatlanságok – kezelésére.
SpikeGPT: ugrás az energiahatékonyságban
Kuaishou jelentős erőként pozicionálja magát AI-kutatás és fejlesztés, mind a nyilvános főáramú termékekben, mind a K+F-projektekben. A KwaiYii a főáramú nyilvános mesterséges intelligencia egyik példája, míg Kuaishou ezen a héten a SpikeGPT-ről is beszélt, amely az AI-kutatási erőfeszítéseinek egyik példája.
A számítási igények A kortárs nagy nyelvi modellek (LLM) számottevőek. A Spiking Neural Networks (SNN-ek) azonban több energiát jelentenek.-hatékony alternatívája a hagyományos mesterséges neurális hálózatoknak, még akkor is, ha azok hatékonysága a nyelvgenerálási feladatokban feltáratlan.
A Kaliforniai Egyetem és a Kuaishou Technology közötti kutatási együttműködés bevezette a SpikeGPT-t (a Szinkronizált áttekintés), az első generatív tüskés neurális hálózat (SNN) nyelvi modell. Ez a modell a 260M paraméteres verziójával megegyezik a mély neurális hálózatok (DNN) teljesítményével ), miközben megtartja a tüske-alapú számítások energiamegtakarítási előnyeit.
A SpikeGPT egy generatív nyelvi modell, amelyet tisztán bináris, eseményvezérelt spiking aktiválási egységek jellemeznek. Integrálja az ismétlődést egy transzformátor blokkba, így kompatibilis az SNN-ekkel. Ez az integráció nemcsak a másodfokú számítási bonyolultságot küszöböli ki, hanem megkönnyíti a szavak eseményvezérelt tüskékként való megjelenítését is.
A modell képes szóról szóra feldolgozni a streaming adatokat, és már a teljes mondat kialakítása előtt is elindítja a számítást, miközben továbbra is megragadja a hosszú távú függőségeket bonyolult szintaktikai struktúrákban. A kutatócsoport különféle technikákat is beépített a SpikeGPT teljesítményének javítására, például egy bináris beágyazási lépést, egy token shift operátort és egy vanília RWKV-t a hagyományos önfigyelő mechanizmus helyére.
A tüskék megértése. Neurális hálózatok
A tüskés neurális hálózatok (Spiking neural networks – SNN-ek) a mesterséges neurális hálózatok egy fajtája, amelyet a biológiai neuronok működése ihletett. Az SNN-ekben a neuronok tüskék küldésével kommunikálnak egymással, amelyek az elektromos aktivitás rövid kitörései. A tüskék nem folyamatosak, hanem diszkrét időközönként jelentkeznek. Ez ellentétben áll a hagyományos mesterséges neurális hálózatokkal, amelyek folytonos értékeket használnak a neuronok aktivációjának ábrázolására.
Az SNN-ek számos potenciális előnnyel rendelkeznek a hagyományos mesterséges neurális hálózatokkal szemben. Először is energiatakarékosabbak. Ennek az az oka, hogy a tüskék csak szükség esetén kerülnek elküldésre, nem pedig folyamatosan. Másodszor, az SNN-ek biológiailag valósághűbbek. Ez jó választássá teszi őket olyan alkalmazásokhoz, amelyek nagyfokú valósághűséget igényelnek, mint például a robotika és az orvosi képalkotás.
Az SNN-eknek azonban vannak kihívásai is. Az egyik kihívás az, hogy nehezebb őket betanítani, mint a hagyományos mesterséges neurális hálózatokat. Ez azért van, mert a tüskék diszkrét események, ami megnehezíti a hiba visszaterjesztését a hálózaton keresztül. Egy másik kihívás, hogy az SNN-eket nem ismerik olyan jól, mint a hagyományos mesterséges neurális hálózatokat. Ez megnehezíti az SNN-ek tervezését és optimalizálását meghatározott feladatokhoz.
A SpikeGPT teljesítménye
Egy empirikus vizsgálat során a SpikeGPT-t három különböző paraméterskálával képezték ki. (45M, 125M és 260M paraméterek), és az Enwik8 adatkészlet segítségével összehasonlították a transzformátor alapvonalaival, mint például a Reformer, a Synthesizer, a Linear Transformer és a Performer. Az eredmények felfedték, hogy a SpikeGPT 22-szer kevesebb szinaptikus művelettel (SynOps) hozott hasonló eredményeket.
Ez a kutatás rávilágít a nagy SNN-ek betanításában rejlő lehetőségekre a transzformátorok fejlődésének kiaknázására, ami arra utal, hogy jelentősen csökken az LLM-ek számítási igényei. eseményvezérelt tüske-aktiválások alkalmazásával a nyelvgeneráláshoz. A kutatók kifejezték azon szándékukat, hogy folytatják modelljük finomítását, és ennek megfelelően frissítik nyomtatás előtti papírjukat. A SpikeGPT kódja elérhető a projekt GitHubon és a a modellt részletező papír az arXiv-en érhető el.