Kuaishou, znana platforma krótkich filmów z siedzibą w Pekinie, w zeszłym tygodniu zaprezentował publicznie opracowany przez siebie duży model języka o nazwie KwaiYii , według raport TechNode. Ponadto firma ujawniła również swoje badania nad Spiking Neural Networks i rozwój SpikeGPT.
Ta wersja jest po fazie testów beta dla usługi podobnej do ChatGPT dla urządzeń z systemem Android, która została uruchomiona 18 sierpnia. Usługa dialogowa, która może pochwalić się 13 miliardami parametrów zakorzenionych w KwaiYii, rywalizuje z OpenAI GPT-3.5 pod względem zdolności do tworzenia treści, konsultacji i rozwiązywania problemów.
LLM jest szczegółowo opisany na stronie GitHub KwaiYii. Podstawowym zastosowaniem chatbota AI Kuaishou było wyszukiwanie, wykorzystujące oryginalne treści z platformy do rozwiązywania „halucynacji” AI – nieścisłości wynikających z nieodpowiedniego uczenia danych.
SpikeGPT: Skok w efektywności energetycznej
Kuaishou pozycjonuje się jako główna siła w Badania i rozwój sztucznej inteligencji, zarówno w produktach głównego nurtu, jak i projektach badawczo-rozwojowych. KwaiYii jest przykładem publicznej sztucznej inteligencji głównego nurtu, podczas gdy Kuaishou również w tym tygodniu omawiał SpikeGPT, przykład swoich wysiłków badawczych w zakresie sztucznej inteligencji.
Wymagania obliczeniowe współczesnych dużych modeli językowych (LLM) jest znaczny. Jednak Spiking Neural Networks (SNN) zostały zidentyfikowane jako bardziej energetyczne-wydajna alternatywa dla konwencjonalnych sztucznych sieci neuronowych, mimo że ich skuteczność w zadaniach generowania języka pozostaje niezbadana.
Współpraca badawcza między University of California i Kuaishou Technology wprowadziła SpikeGPT (przez Synced Review), inauguracyjny generatywny model językowy sieci neuronowej (SNN). Ten model, z wersją parametrów 260M, dorównuje wydajnością głębokich sieci neuronowych (DNN ) przy jednoczesnym zachowaniu energooszczędnych korzyści obliczeń opartych na skokach.
SpikeGPT to generatywny model językowy charakteryzujący się czystymi binarnymi, sterowanymi zdarzeniami jednostkami aktywacji szczytowej. Integruje rekurencję z blokiem transformatora, dzięki czemu jest kompatybilny z SNN. Ta integracja nie tylko eliminuje kwadratową złożoność obliczeniową, ale także ułatwia reprezentację słów jako skoków sterowanych zdarzeniami.
Model może przetwarzać dane strumieniowe słowo po słowie, inicjując obliczenia nawet przed utworzeniem pełnego zdania, jednocześnie wychwytując dalekosiężne zależności w skomplikowanych strukturach składniowych. Zespół badawczy zastosował również różne techniki w celu zwiększenia wydajności SpikeGPT, takie jak etap osadzania binarnego, operator przesunięcia tokena i waniliowy RWKV w celu zastąpienia tradycyjnego mechanizmu samouwagi.
Zrozumienie Spikingu Sieci neuronowe
Spikujące sieci neuronowe (SNN) to rodzaj sztucznych sieci neuronowych inspirowanych sposobem działania neuronów biologicznych. W sieciach SNN neurony komunikują się ze sobą, wysyłając impulsy, które są krótkimi impulsami aktywności elektrycznej. Skoki nie są ciągłe, ale raczej występują w dyskretnych odstępach czasu. Kontrastuje to z tradycyjnymi sztucznymi sieciami neuronowymi, które wykorzystują ciągłe wartości do reprezentowania aktywacji neuronów.
SNN mają kilka potencjalnych zalet w porównaniu z tradycyjnymi sztucznymi sieciami neuronowymi. Po pierwsze są bardziej energooszczędne. Dzieje się tak, ponieważ skoki są wysyłane tylko wtedy, gdy jest to konieczne, a nie w sposób ciągły. Po drugie, SNN są bardziej realistyczne biologicznie. To sprawia, że są dobrym wyborem do zastosowań wymagających wysokiego stopnia realizmu, takich jak robotyka i obrazowanie medyczne.
SNN mają jednak również pewne wyzwania. Jednym z wyzwań jest to, że są one trudniejsze do nauczenia niż tradycyjne sztuczne sieci neuronowe. Dzieje się tak, ponieważ skoki są zdarzeniami dyskretnymi, co utrudnia wsteczną propagację błędu w sieci. Kolejnym wyzwaniem jest to, że sieci SNN nie są tak dobrze rozumiane jak tradycyjne sztuczne sieci neuronowe. Utrudnia to projektowanie i optymalizację SNN do określonych zadań.
Jak SpikeGPT działa
W badaniu empirycznym SpikeGPT został przeszkolony z trzema różnymi skalami parametrów (parametry 45M, 125M i 260M) i został porównany z liniami bazowymi transformatorów, takimi jak Reformer, Synthesizer, Linear Transformer i Performer przy użyciu zestawu danych Enwik8. Wyniki ujawniły, że SpikeGPT zapewnia porównywalne wyniki przy 22-krotnie mniejszej liczbie operacji synaptycznych (SynOps).
Badanie to podkreśla potencjał szkolenia dużych SNN w celu wykorzystania postępów w transformatorach, sugerując znaczne zmniejszenie wymagań obliczeniowych LLM poprzez zastosowanie aktywacji impulsów sterowanych zdarzeniami do generowania języka. Naukowcy wyrazili zamiar dalszego udoskonalania swojego modelu i będą odpowiednio aktualizować swój preprint. Kod SpikeGPT jest dostępny w serwisie GitHub projektu, a artykuł szczegółowo opisujący model jest dostępny na stronie arXiv.