Kuaishou, o platformă video scurtă proeminentă cu sediul în Beijing, și-a dezvăluit publicului săptămâna trecută modelul său de limbaj mare dezvoltat de sine, denumit KwaiYii , potrivit unui raport de la TechNode. În plus, compania și-a dezvăluit, de asemenea, cercetările privind Spiking Neural Networks și dezvoltarea SpikeGPT.
Această versiune vine după o fază de testare beta. pentru un serviciu asemănător ChatGPT pentru dispozitivele Android, care a început pe 18 august. Serviciul de dialog, care se mândrește cu 13 miliarde de parametri înrădăcinați în KwaiYii, rivalizează cu OpenAI GPT-3.5 în ceea ce privește capacitatea sa de creare de conținut, consultare și rezolvare de probleme.
LLM este detaliat pe pagina GitHub a KwaiYii. Aplicația principală pentru chatbot-ul AI al lui Kuaishou a fost căutarea, utilizând conținut original de pe platformă pentru a aborda „halucinațiile” AI – inexactități rezultate din instruirea inadecvată a datelor.
SpikeGPT: Un salt în eficiența energetică
Kuaishou se poziționează ca o forță majoră în Cercetare și dezvoltare AI, atât în produsele publice de masă, cât și în proiectele de cercetare și dezvoltare. KwaiYii este un exemplu de IA publică principală, în timp ce Kuaishou a discutat și în această săptămână despre SpikeGPT, un exemplu al eforturilor sale de cercetare AI.
Cerințele de calcul. ale modelelor de limbaj mari (LLM) contemporane sunt substanțiale. Cu toate acestea, Spiking Neural Networks (SNN) au fost identificate ca fiind mai energice-alternativă eficientă la rețelele neuronale artificiale convenționale, chiar dacă eficacitatea lor în sarcinile de generare a limbajului rămâne neexploatată.
O colaborare de cercetare între Universitatea din California și Kuaishou Technology a introdus SpikeGPT (prin Synced Review), prima model de limbaj de rețea neuronală de creștere generativă (SNN). Acest model, cu versiunea sa cu parametri de 260 M, se potrivește cu performanța rețele neuronale profunde (DNN ) păstrând în același timp beneficiile de economisire a energiei ale calculelor bazate pe spike.
SpikeGPT este un model de limbaj generativ caracterizat de unități binare pure, bazate pe evenimente de activare a spiking. Acesta integrează recurența într-un bloc transformator, făcându-l compatibil cu SNN-urile. Această integrare nu numai că elimină complexitatea de calcul pătratică, dar facilitează și reprezentarea cuvintelor ca vârfuri determinate de evenimente.
Modelul poate procesa fluxul de date cuvânt cu cuvânt, inițiind calculul chiar înainte de formarea unei propoziții complete, captând în același timp dependențele de lungă durată în structuri sintactice complicate. Echipa de cercetare a încorporat, de asemenea, diverse tehnici pentru a îmbunătăți performanța SpikeGPT, cum ar fi un pas de încorporare binar, un operator de schimbare a simbolului și un RWKV vanilie pentru a înlocui mecanismul tradițional de auto-atenție.
Înțelegerea Spiking-ului. Rețele neuronale
Rețelele neuronale cu vârf (SNN) sunt un tip de rețea neuronală artificială care este inspirată de modul în care funcționează neuronii biologici. În SNN, neuronii comunică între ei prin trimiterea de vârfuri, care sunt explozii scurte de activitate electrică. Picurile nu sunt continue, ci mai degrabă apar la intervale de timp discrete. Acest lucru este în contrast cu rețelele neuronale artificiale tradiționale, care utilizează valori continue pentru a reprezenta activarea neuronilor.
SNN-urile au mai multe avantaje potențiale față de rețelele neuronale artificiale tradiționale. În primul rând, sunt mai eficiente din punct de vedere energetic. Acest lucru se datorează faptului că vârfurile sunt trimise numai atunci când este necesar, mai degrabă decât continuu. În al doilea rând, SNN-urile sunt mai realiste din punct de vedere biologic. Acest lucru le face o alegere bună pentru aplicațiile care necesită un grad ridicat de realism, cum ar fi robotica și imagistica medicală.
Cu toate acestea, SNN-urile au și unele provocări. O provocare este că sunt mai greu de antrenat decât rețelele neuronale artificiale tradiționale. Acest lucru se datorează faptului că vârfurile sunt evenimente discrete, ceea ce face dificilă propagarea înapoi a erorii prin rețea. O altă provocare este că SNN-urile nu sunt la fel de bine înțelese ca rețelele neuronale artificiale tradiționale. Acest lucru face dificilă proiectarea și optimizarea SNN-urilor pentru sarcini specifice.
Cum funcționează SpikeGPT
Într-un studiu empiric, SpikeGPT a fost antrenat cu trei scale de parametri diferite. (parametri 45M, 125M și 260M) și a fost comparat cu liniile de bază ale transformatoarelor, cum ar fi Reformer, Synthesizer, Linear Transformer și Performer folosind setul de date Enwik8. Rezultatele au arătat că SpikeGPT a oferit rezultate comparabile cu de 22 de ori mai puține operațiuni sinaptice (SynOps).
Această cercetare subliniază potențialul antrenării SNN-urilor mari pentru a valorifica progresele în transformatoare, sugerând o reducere semnificativă a cerințelor de calcul ale LLM-urilor. prin aplicarea activărilor de spiking determinate de evenimente la generarea limbajului. Cercetătorii și-au exprimat intenția de a continua să-și perfecționeze modelul și își vor actualiza hârtia de pretipărire în consecință. Codul pentru SpikeGPT este disponibil pe GitHub al proiectului și hârtia care detaliază modelul poate fi accesată pe arXiv.