Kuaishou, një platformë e shquar video e shkurtër me bazë në Pekin, zbuloi për publikun modelin e saj të madh të gjuhës së zhvilluar vetë të quajtur KwaiYii javën e kaluar, sipas një raport nga TechNode. Për më tepër, kompania zbuloi gjithashtu kërkimin e saj mbi Spiking Neural Networks dhe zhvillimin e SpikeGPT.

Ky lëshim vjen pas një faze testimi beta. për një shërbim të ngjashëm me ChatGPT për pajisjet Android që filloi më 18 gusht. Shërbimi i dialogut, i cili krenohet me 13 miliardë parametra të rrënjosur në KwaiYii, rivalizon OpenAI GPT-3.5 në kapacitetin e tij për krijimin e përmbajtjes, konsultimin dhe zgjidhjen e problemeve.

LLM është i detajuar në faqen GitHub të KwaiYii. Aplikacioni kryesor për chatbot-in e AI-së Kuaishou ka qenë kërkimi, duke përdorur përmbajtje origjinale nga platforma për të adresuar”halucinacionet”e AI-pasaktësitë që rezultojnë nga trajnimi joadekuat i të dhënave.

SpikeGPT: Një hap në efikasitetin e energjisë

Kuaishou po pozicionohet si një forcë kryesore në Hulumtimi dhe zhvillimi i AI, si në produktet kryesore publike, ashtu edhe në projektet e R&D. KwaiYii është një shembull i inteligjencës artificiale të zakonshme publike, ndërsa Kuaishou gjithashtu këtë javë diskutoi SpikeGPT, një shembull i përpjekjeve të saj kërkimore për AI.

Kërkesat llogaritëse. e modeleve bashkëkohore të gjuhëve të mëdha (LLM) janë thelbësore. Megjithatë, Rrjetet nervore spike (SNN) janë identifikuar si më shumë energji-alternativë efikase ndaj rrjeteve nervore artificiale konvencionale, edhe pse efikasiteti i tyre në detyrat e gjenerimit të gjuhës mbetet i paeksploruar.

Një bashkëpunim kërkimor midis Universitetit të Kalifornisë dhe Teknologjisë Kuaishou ka prezantuar SpikeGPT (nëpërmjet Rishikimi i sinkronizuar), inaugurimi modeli i gjuhës së rrjetit nervor gjenerativ spiking (SNN). Ky model, me versionin e tij të parametrave 260 milion, përputhet me performancën e rrjeteve të thella nervore (DNN ) duke ruajtur përfitimet e kursimit të energjisë nga llogaritjet e bazuara në spike.

SpikeGPT është një model gjuhësor gjenerues i karakterizuar nga njësi të pastra të aktivizimit binar, të drejtuar nga ngjarjet. Ai integron përsëritjen në një bllok transformator, duke e bërë atë të pajtueshëm me SNN. Ky integrim jo vetëm që eliminon kompleksitetin kuadratik llogaritës, por gjithashtu lehtëson përfaqësimin e fjalëve si thumba të drejtuara nga ngjarjet.

Modeli mund të përpunojë të dhënat e transmetimit fjalë për fjalë, duke filluar llogaritjen edhe përpara formimit të një fjalie të plotë, ndërsa ende kapin varësitë me rreze të gjatë në strukturat e ndërlikuara sintaksore. Ekipi hulumtues ka inkorporuar gjithashtu teknika të ndryshme për të përmirësuar performancën e SpikeGPT, të tilla si një hap binar i ngulitjes, një operator i zhvendosjes së shenjave dhe një RWKV vanilje për të zëvendësuar mekanizmin tradicional të vetë-vëmendjes.

Të kuptojmë Spiking. Rrjetet nervore

Rrjetet nervore spike (SNN) janë një lloj rrjeti nervor artificial që frymëzohet nga mënyra se si funksionojnë neuronet biologjike. Në SNN, neuronet komunikojnë me njëri-tjetrin duke dërguar thumba, të cilat janë shpërthime të shkurtra të aktivitetit elektrik. Pikat nuk janë të vazhdueshme, por më tepër ndodhin në intervale kohore diskrete. Kjo është në kontrast me rrjetet nervore artificiale tradicionale, të cilat përdorin vlera të vazhdueshme për të përfaqësuar aktivizimin e neuroneve.

SNN-të kanë disa avantazhe potenciale mbi rrjetet nervore artificiale tradicionale. Së pari, ato janë më efikase në energji. Kjo është për shkak se pikat dërgohen vetëm kur është e nevojshme, dhe jo vazhdimisht. Së dyti, SNN-të janë më realistë biologjikisht. Kjo i bën ato një zgjedhje të mirë për aplikacionet që kërkojnë një shkallë të lartë realizmi, si robotika dhe imazhet mjekësore.

Megjithatë, SNN-të kanë gjithashtu disa sfida. Një sfidë është se ato janë më të vështira për t’u trajnuar sesa rrjetet nervore artificiale tradicionale. Kjo për shkak se pikat janë ngjarje diskrete, gjë që e bën të vështirë përhapjen e gabimit në rrjet. Një sfidë tjetër është se SNN-të nuk kuptohen aq mirë sa rrjetet nervore artificiale tradicionale. Kjo e bën të vështirë hartimin dhe optimizimin e SNN-ve për detyra specifike.

Si performon SpikeGPT

Në një studim empirik, SpikeGPT u trajnua me tre shkallë të ndryshme parametrash (parametrat 45M, 125M dhe 260M) dhe u krahasua me linjat bazë të transformatorëve si Reformer, Synthesizer, Linear Transformer dhe Performer duke përdorur grupin e të dhënave Enwik8. Rezultatet zbuluan se SpikeGPT dha rezultate të krahasueshme me 22 herë më pak operacione sinaptike (SynOps).

Ky hulumtim nënvizon potencialin e trajnimit të SNN-ve të mëdha për të shfrytëzuar përparimet në transformatorë, duke sugjeruar një reduktim të ndjeshëm në kërkesat llogaritëse të LLM-ve duke aplikuar aktivizime spiking të drejtuara nga ngjarjet në gjenerimin e gjuhës. Studiuesit kanë shprehur synimin e tyre për të vazhduar rafinimin e modelit të tyre dhe do të përditësojnë letrën e tyre paraprintuese në përputhje me rrethanat. Kodi për SpikeGPT është i disponueshëm në GitHub të projektit dhe letra që detajojnë modelin mund të aksesohen në arXiv.

Categories: IT Info