Kuaishou, een prominent platform voor korte video’s gevestigd in Beijing, onthulde vorige week zijn zelfontwikkelde grote taalmodel genaamd KwaiYii aan het publiek, volgens een rapport van TechNode. Verder onthulde het bedrijf ook zijn onderzoek naar Spiking Neural Networks en de ontwikkeling van SpikeGPT.

Deze release komt na een bètatestfase voor een ChatGPT-achtige service voor Android-apparaten die op 18 augustus van start ging. De dialoogservice, die beschikt over 13 miljard parameters die zijn geworteld in KwaiYii, concurreert met OpenAI GPT-3.5 in zijn capaciteit voor het maken, raadplegen en oplossen van problemen.

De LLM wordt beschreven op KwaiYii’s GitHub-pagina. De primaire toepassing voor Kuaishou’s AI-chatbot was zoeken, gebruikmakend van originele inhoud van het platform om AI-“hallucinaties”aan te pakken-onnauwkeurigheden als gevolg van onvoldoende gegevenstraining.

SpikeGPT: een sprong in energie-efficiëntie

Kuaishou positioneert zichzelf als een belangrijke kracht in AI-onderzoek en-ontwikkeling, zowel in publieke reguliere producten als in R&D-projecten. KwaiYii is een voorbeeld van de reguliere publieke AI, terwijl Kuaishou deze week ook SpikeGPT besprak, een voorbeeld van zijn AI-onderzoeksinspanningen.

De rekenkundige eisen van de hedendaagse grote taalmodellen (LLM’s) zijn aanzienlijk. Er zijn echter Spiking Neural Networks (SNN’s) geïdentificeerd als een meer energieke-efficiënt alternatief voor conventionele kunstmatige neurale netwerken, hoewel hun doeltreffendheid bij het genereren van talen nog niet in kaart is gebracht.

Een onderzoekssamenwerking tussen de Universiteit van Californië en Kuaishou Technology heeft SpikeGPT geïntroduceerd (via Synced Review), de inaugurele generatief spiking neuraal netwerk (SNN) taalmodel. Dit model, met zijn 260M parameterversie, komt overeen met de prestaties van diepe neurale netwerken (DNN ) met behoud van de energiebesparende voordelen van op spikes gebaseerde berekeningen.

SpikeGPT is een generatief taalmodel dat wordt gekenmerkt door pure binaire, gebeurtenisgestuurde spike-activeringseenheden. Het integreert herhaling in een transformatorblok, waardoor het compatibel is met SNN’s. Deze integratie elimineert niet alleen de kwadratische computationele complexiteit, maar vergemakkelijkt ook de weergave van woorden als gebeurtenisgestuurde pieken.

Het model kan stromende gegevens woord voor woord verwerken, waardoor de berekening wordt gestart nog voordat een volledige zin is gevormd, terwijl nog steeds de langeafstandsafhankelijkheden in ingewikkelde syntactische structuren worden vastgelegd. Het onderzoeksteam heeft ook verschillende technieken ingebouwd om de prestaties van SpikeGPT te verbeteren, zoals een binaire inbeddingsstap, een token shift-operator en een vanilla RWKV om het traditionele mechanisme van zelfaandacht te vervangen.

Spiking begrijpen. Neurale netwerken

Spiking neurale netwerken (SNN’s) zijn een type kunstmatig neuraal netwerk dat is geïnspireerd op de manier waarop biologische neuronen werken. In SNN’s communiceren de neuronen met elkaar door pieken te verzenden, dit zijn korte uitbarstingen van elektrische activiteit. De pieken zijn niet continu, maar treden eerder op met discrete tijdsintervallen. Dit in tegenstelling tot traditionele kunstmatige neurale netwerken, die continue waarden gebruiken om de activering van neuronen weer te geven.

SNN’s hebben verschillende potentiële voordelen ten opzichte van traditionele kunstmatige neurale netwerken. Ten eerste zijn ze energiezuiniger. Dit komt omdat de spikes alleen worden verzonden wanneer dat nodig is, in plaats van continu. Ten tweede zijn SNN’s biologisch realistischer. Dit maakt ze een goede keuze voor toepassingen die een hoge mate van realisme vereisen, zoals robotica en medische beeldvorming.

SNN’s hebben echter ook enkele uitdagingen. Een uitdaging is dat ze moeilijker te trainen zijn dan traditionele kunstmatige neurale netwerken. Dit komt omdat de pieken afzonderlijke gebeurtenissen zijn, waardoor het moeilijk is om de fout via het netwerk terug te sturen. Een andere uitdaging is dat SNN’s niet zo goed worden begrepen als traditionele kunstmatige neurale netwerken. Dit maakt het moeilijk om SNN’s voor specifieke taken te ontwerpen en te optimaliseren.

Hoe SpikeGPT presteert

In een empirisch onderzoek werd SpikeGPT getraind met drie verschillende parameterschalen (45M, 125M en 260M parameters) en werd gebenchmarkt tegen transformator-baselines zoals Reformer, Synthesizer, Linear Transformer en Performer met behulp van de Enwik8-dataset. De resultaten onthulden dat SpikeGPT vergelijkbare resultaten opleverde met 22 keer minder synaptische bewerkingen (SynOps).

Dit onderzoek onderstreept het potentieel van het trainen van grote SNN’s om de vooruitgang in transformatoren te benutten, wat duidt op een aanzienlijke vermindering van de rekenbehoeften van LLM’s. door gebeurtenisgestuurde spike-activeringen toe te passen op taalgeneratie. De onderzoekers hebben de intentie uitgesproken om door te gaan met het verfijnen van hun model en zullen hun preprintdocument dienovereenkomstig bijwerken. De code voor SpikeGPT is beschikbaar op de GitHub van het project en de papier met details over het model is toegankelijk via arXiv.

Categories: IT Info