Kuaishou, uma proeminente plataforma de vídeos curtos com sede em Pequim, revelou seu modelo de linguagem grande autodesenvolvido chamado KwaiYii ao público na semana passada, de acordo com um relatório do TechNode. Além disso, a empresa também revelou sua pesquisa sobre Spiking Neural Networks e o desenvolvimento do SpikeGPT.
Esta versão vem após uma fase de teste beta para um serviço semelhante ao ChatGPT para dispositivos Android que começou em 18 de agosto. O serviço de diálogo, que possui 13 bilhões de parâmetros enraizados no KwaiYii, rivaliza com o OpenAI GPT-3.5 em sua capacidade de criação de conteúdo, consulta e solução de problemas.
O LLM é detalhado na página GitHub do KwaiYii. A principal aplicação do chatbot de IA de Kuaishou tem sido a pesquisa, utilizando o conteúdo original da plataforma para lidar com”alucinações”de IA-imprecisões resultantes de treinamento inadequado de dados.
SpikeGPT: um salto na eficiência energética
Kuaishou está se posicionando como uma grande força em Pesquisa e desenvolvimento de IA, tanto em produtos públicos mainstream quanto em projetos de P&D. KwaiYii é um exemplo de IA pública mainstream, enquanto Kuaishou também discutiu esta semana o SpikeGPT, um exemplo de seus esforços de pesquisa de IA.
As demandas computacionais dos modelos contemporâneos de linguagem ampla (LLMs) são substanciais. No entanto, as Spiking Neural Networks (SNNs) foram identificadas como uma forma mais energética-alternativa eficiente para redes neurais artificiais convencionais, embora sua eficácia em tarefas de geração de linguagem permaneça desconhecida.
Uma colaboração de pesquisa entre a Universidade da Califórnia e a Kuaishou Technology introduziu o SpikeGPT (via Revisão sincronizada), a primeira modelo de linguagem de rede neural (SNN) generative spiking. Este modelo, com sua versão de 260 milhões de parâmetros, corresponde ao desempenho de redes neurais profundas (DNN ) enquanto retém os benefícios de economia de energia de cálculos baseados em pico.
SpikeGPT é um modelo de linguagem generativo caracterizado por unidades de ativação de pico binárias puras orientadas a eventos. Ele integra a recorrência em um bloco transformador, tornando-o compatível com SNNs. Essa integração não apenas elimina a complexidade computacional quadrática, mas também facilita a representação de palavras como picos orientados a eventos.
O modelo pode processar dados de streaming palavra por palavra, iniciando a computação antes mesmo da formação de uma frase completa, enquanto ainda captura as dependências de longo alcance em estruturas sintáticas intrincadas. A equipe de pesquisa também incorporou várias técnicas para melhorar o desempenho do SpikeGPT, como uma etapa de incorporação binária, um operador token shift e um RWKV vanilla para substituir o mecanismo tradicional de auto-atenção.
Entendendo o Spiking Redes neurais
As redes neurais spiking (SNNs) são um tipo de rede neural artificial inspirada na maneira como os neurônios biológicos funcionam. Nos SNNs, os neurônios se comunicam enviando picos, que são rajadas curtas de atividade elétrica. Os picos não são contínuos, mas ocorrem em intervalos de tempo discretos. Isso contrasta com as redes neurais artificiais tradicionais, que usam valores contínuos para representar a ativação dos neurônios.
SNNs têm várias vantagens potenciais sobre as redes neurais artificiais tradicionais. Primeiro, eles são mais eficientes em termos energéticos. Isso ocorre porque os picos são enviados apenas quando necessário, em vez de continuamente. Em segundo lugar, os SNNs são biologicamente mais realistas. Isso os torna uma boa escolha para aplicativos que exigem um alto grau de realismo, como robótica e imagens médicas.
No entanto, os SNNs também apresentam alguns desafios. Um desafio é que eles são mais difíceis de treinar do que as redes neurais artificiais tradicionais. Isso ocorre porque os picos são eventos discretos, o que dificulta a retropropagação do erro pela rede. Outro desafio é que os SNNs não são tão bem compreendidos quanto as redes neurais artificiais tradicionais. Isso dificulta o projeto e a otimização de SNNs para tarefas específicas.
Como funciona o SpikeGPT
Em um estudo empírico, o SpikeGPT foi treinado com três escalas de parâmetros diferentes (parâmetros 45M, 125M e 260M) e foi comparado com as linhas de base do transformador como Reformer, Synthesizer, Linear Transformer e Performer usando o conjunto de dados Enwik8. Os resultados revelaram que o SpikeGPT forneceu resultados comparáveis com 22 vezes menos operações sinápticas (SynOps).
Esta pesquisa ressalta o potencial de treinar grandes SNNs para aproveitar os avanços nos transformadores, sugerindo uma redução significativa nas demandas computacionais dos LLMs aplicando ativações de spiking orientadas a eventos para geração de linguagem. Os pesquisadores expressaram sua intenção de continuar refinando seu modelo e atualizarão seu artigo de pré-impressão de acordo. O código do SpikeGPT está disponível no GitHub do projeto, e o papel detalhando o modelo pode ser acessado no arXiv.