Kuaishou, un’importante piattaforma di brevi video con sede a Pechino, la scorsa settimana ha svelato al pubblico il suo modello di linguaggio esteso auto-sviluppato chiamato KwaiYii , secondo un rapporto da TechNode. Inoltre, la società ha anche svelato la sua ricerca sulle reti neurali spiking e lo sviluppo di SpikeGPT.

Questa versione arriva dopo una fase di beta test per un servizio simile a ChatGPT per dispositivi Android avviato il 18 agosto. Il servizio di dialogo, che vanta 13 miliardi di parametri radicati in KwaiYii, rivaleggia con OpenAI GPT-3.5 nella sua capacità di creazione di contenuti, consultazione e risoluzione dei problemi.

L’LLM è dettagliato nella pagina GitHub di KwaiYii. L’applicazione principale per il chatbot AI di Kuaishou è stata la ricerca, utilizzando i contenuti originali della piattaforma per affrontare le”allucinazioni”dell’IA-imprecisioni derivanti da un addestramento inadeguato dei dati.

SpikeGPT: un balzo nell’efficienza energetica

Kuaishou si sta posizionando come una forza importante nel Ricerca e sviluppo dell’IA, sia nei prodotti mainstream pubblici che nei progetti di ricerca e sviluppo. KwaiYii è un esempio dell’IA pubblica mainstream, mentre Kuaishou questa settimana ha anche discusso di SpikeGPT, un esempio dei suoi sforzi di ricerca sull’IA.

Le esigenze computazionali dei modelli LLM (Large Language Models) contemporanei sono sostanziali. Tuttavia, le Spiking Neural Networks (SNN) sono state identificate come uno strumento più energetico-alternativa efficiente alle reti neurali artificiali convenzionali, anche se la loro efficacia nelle attività di generazione del linguaggio rimane inesplorata.

Una collaborazione di ricerca tra l’Università della California e la Kuaishou Technology ha introdotto SpikeGPT (tramite Synced Review), il primo modello di linguaggio della rete neurale a spiking generativo (SNN). Questo modello, con la sua versione di 260 milioni di parametri, corrisponde alle prestazioni delle reti neurali profonde (DNN ) pur mantenendo i vantaggi in termini di risparmio energetico dei calcoli basati su picchi.

SpikeGPT è un modello di linguaggio generativo caratterizzato da unità di attivazione di picchi binarie guidate da eventi. Integra la ricorrenza in un blocco trasformatore, rendendola compatibile con gli SNN. Questa integrazione non solo elimina la complessità computazionale quadratica, ma facilita anche la rappresentazione delle parole come picchi guidati dagli eventi.

Il modello può elaborare i dati in streaming parola per parola, avviando il calcolo anche prima della formazione di una frase completa, pur catturando le dipendenze a lungo raggio in complesse strutture sintattiche. Il team di ricerca ha anche incorporato varie tecniche per migliorare le prestazioni di SpikeGPT, come una fase di incorporamento binario, un operatore di spostamento token e un RWKV vanilla per sostituire il tradizionale meccanismo di auto-attenzione.

Capire lo Spiking Reti neurali

Le reti neurali spiking (SNN) sono un tipo di rete neurale artificiale che si ispira al modo in cui funzionano i neuroni biologici. Nelle SNN, i neuroni comunicano tra loro inviando picchi, che sono brevi esplosioni di attività elettrica. I picchi non sono continui, ma piuttosto si verificano a intervalli di tempo discreti. Ciò è in contrasto con le tradizionali reti neurali artificiali, che utilizzano valori continui per rappresentare l’attivazione dei neuroni.

Gli SNN presentano diversi potenziali vantaggi rispetto alle tradizionali reti neurali artificiali. Innanzitutto, sono più efficienti dal punto di vista energetico. Questo perché i picchi vengono inviati solo quando necessario, piuttosto che continuamente. In secondo luogo, gli SNN sono più biologicamente realistici. Questo li rende una buona scelta per le applicazioni che richiedono un alto grado di realismo, come la robotica e l’imaging medico.

Tuttavia, gli SNN presentano anche alcune sfide. Una sfida è che sono più difficili da addestrare rispetto alle tradizionali reti neurali artificiali. Questo perché i picchi sono eventi discreti, il che rende difficile la retropropagazione dell’errore attraverso la rete. Un’altra sfida è che gli SNN non sono ben compresi come le tradizionali reti neurali artificiali. Ciò rende difficile progettare e ottimizzare gli SNN per attività specifiche.

Come funziona SpikeGPT

In uno studio empirico, SpikeGPT è stato addestrato con tre diverse scale di parametri (parametri 45M, 125M e 260M) ed è stato confrontato con linee di base di trasformatori come Reformer, Synthesizer, Linear Transformer e Performer utilizzando il set di dati Enwik8. I risultati hanno rivelato che SpikeGPT ha fornito risultati comparabili con 22 volte meno operazioni sinaptiche (SynOps).

Questa ricerca sottolinea il potenziale dell’addestramento di grandi SNN per sfruttare i progressi nei trasformatori, suggerendo una significativa riduzione delle richieste computazionali degli LLM applicando attivazioni di spiking guidate da eventi alla generazione del linguaggio. I ricercatori hanno espresso la loro intenzione di continuare a perfezionare il loro modello e aggiorneranno di conseguenza il loro documento di prestampa. Il codice per SpikeGPT è disponibile sul GitHub del progettoè possibile accedere al documento che descrive in dettaglio il modello su arXiv.

Categories: IT Info