Kuaishou, eine bekannte Kurzvideoplattform mit Sitz in Peking hat laut einem KwaiYii der Öffentlichkeit vorgestellt.com/2023/08/21/kuaishou-publicly-launches-its-own-large-lingual-model-that-takes-on-gpt3-5/”>Bericht von TechNode. Darüber hinaus stellte das Unternehmen auch seine Forschung zu Spiking Neural Networks und die Entwicklung von SpikeGPT vor.

Diese Veröffentlichung folgt auf eine Beta-Testphase für einen ChatGPT-ähnlichen Dienst für Android-Geräte, der am 18. August startete. Der Dialogdienst, der über 13 Milliarden Parameter verfügt, die auf KwaiYii basieren, konkurriert mit OpenAI GPT-3.5 in seiner Fähigkeit zur Inhaltserstellung, Beratung und Problemlösung.

Das LLM wird auf KwaiYiis GitHub-Seite ausführlich beschrieben. Die Hauptanwendung für Kuaishous KI-Chatbot war die Suche, wobei Originalinhalte der Plattform genutzt wurden, um KI-„Halluzinationen“ zu beheben – Ungenauigkeiten, die auf unzureichendes Datentraining zurückzuführen sind.

SpikeGPT: Ein Sprung in der Energieeffizienz

Kuaishou positioniert sich als führende Kraft in KI-Forschung und-Entwicklung, sowohl in öffentlichen Mainstream-Produkten als auch in F&E-Projekten. KwaiYii ist ein Beispiel für die öffentliche Mainstream-KI, während Kuaishou diese Woche auch SpikeGPT diskutierte, ein Beispiel für seine KI-Forschungsbemühungen.

Die Rechenanforderungen Die Anzahl zeitgenössischer großer Sprachmodelle (LLMs) ist erheblich. Spiking Neural Networks (SNNs) wurden jedoch als energiereicher identifiziert-effiziente Alternative zu herkömmlichen künstlichen neuronalen Netzen, auch wenn ihre Wirksamkeit bei Sprachgenerierungsaufgaben noch unbekannt ist.

Eine Forschungskooperation zwischen der University of California und Kuaishou Technology hat SpikeGPT eingeführt (über Synced Review), die erste Generatives Spiking Neural Network (SNN)-Sprachmodell. Dieses Modell entspricht mit seiner 260M-Parameterversion der Leistung von Deep Neural Networks (DNN ) unter Beibehaltung der energiesparenden Vorteile von Spike-basierten Berechnungen.

SpikeGPT ist ein generatives Sprachmodell, das durch rein binäre, ereignisgesteuerte Spike-Aktivierungseinheiten gekennzeichnet ist. Es integriert die Wiederholung in einen Transformatorblock und macht es so mit SNNs kompatibel. Diese Integration eliminiert nicht nur die quadratische Rechenkomplexität, sondern erleichtert auch die Darstellung von Wörtern als ereignisgesteuerte Spitzen.

Das Modell kann Streaming-Daten Wort für Wort verarbeiten und die Berechnung bereits vor der Bildung eines vollständigen Satzes einleiten. Dabei werden weiterhin die weitreichenden Abhängigkeiten in komplizierten syntaktischen Strukturen erfasst. Das Forschungsteam hat auch verschiedene Techniken integriert, um die Leistung von SpikeGPT zu verbessern, wie etwa einen binären Einbettungsschritt, einen Token-Shift-Operator und einen Vanilla-RWKV, um den traditionellen Selbstaufmerksamkeitsmechanismus zu ersetzen.

Spike verstehen Neuronale Netze

Spiking Neural Networks (SNNs) sind eine Art künstliches neuronales Netzwerk, das von der Funktionsweise biologischer Neuronen inspiriert ist. In SNNs kommunizieren die Neuronen miteinander, indem sie Spikes senden, bei denen es sich um kurze Ausbrüche elektrischer Aktivität handelt. Die Spitzen sind nicht kontinuierlich, sondern treten in diskreten Zeitintervallen auf. Dies steht im Gegensatz zu herkömmlichen künstlichen neuronalen Netzen, die kontinuierliche Werte verwenden, um die Aktivierung von Neuronen darzustellen.

SNNs haben mehrere potenzielle Vorteile gegenüber herkömmlichen künstlichen neuronalen Netzen. Erstens sind sie energieeffizienter. Dies liegt daran, dass die Spitzen nur bei Bedarf und nicht kontinuierlich gesendet werden. Zweitens sind SNNs biologisch realistischer. Dies macht sie zu einer guten Wahl für Anwendungen, die ein hohes Maß an Realismus erfordern, wie etwa Robotik und medizinische Bildgebung.

SNNs haben jedoch auch einige Herausforderungen. Eine Herausforderung besteht darin, dass sie schwieriger zu trainieren sind als herkömmliche künstliche neuronale Netze. Dies liegt daran, dass es sich bei den Spitzen um diskrete Ereignisse handelt, was die Rückübertragung des Fehlers über das Netzwerk erschwert. Eine weitere Herausforderung besteht darin, dass SNNs nicht so gut verstanden sind wie herkömmliche künstliche neuronale Netze. Dies macht es schwierig, SNNs für bestimmte Aufgaben zu entwerfen und zu optimieren.

Wie SpikeGPT funktioniert

In einer empirischen Studie wurde SpikeGPT mit drei verschiedenen Parameterskalen trainiert (45M-, 125M-und 260M-Parameter) und wurde mithilfe des Enwik8-Datensatzes mit Transformator-Basislinien wie Reformer, Synthesizer, Linear Transformer und Performer verglichen. Die Ergebnisse zeigten, dass SpikeGPT vergleichbare Ergebnisse mit 22-mal weniger synaptischen Operationen (SynOps) lieferte.

Diese Forschung unterstreicht das Potenzial des Trainings großer SNNs, um die Fortschritte bei Transformatoren zu nutzen, was auf eine erhebliche Reduzierung des Rechenaufwands von LLMs hindeutet durch Anwendung ereignisgesteuerter Spike-Aktivierungen auf die Sprachgenerierung. Die Forscher haben ihre Absicht zum Ausdruck gebracht, ihr Modell weiter zu verfeinern und werden ihr Preprint-Papier entsprechend aktualisieren. Der Code für SpikeGPT ist auf dem GitHub des Projekts verfügbar und die Papier mit detaillierten Angaben zum Modell finden Sie auf arXiv.

Categories: IT Info