Pesquisadores na ETH Zurich fizeram um avanço significativo no aumento da eficiência da rede neural. Eles introduziram uma nova técnica que tem o potencial de reduzir as necessidades computacionais dessas redes em mais de 99%.

Redes Fast Feedforward: O próximo passo na eficiência da IA

O núcleo deste avanço reside no que os pesquisadores chamam de camadas “fast feedforward” (FFF), que substituem as tradicionais camadas feedforward comuns em grandes modelos de linguagem (LLMs) baseados em transformadores, como GPT-3. Camadas feedforward, conhecidas por seu processamento computacional pesado requisitos, conte com multiplicações de matrizes densas (DMM) – um método que multiplica todas as entradas em cada neurônio em uma rede. Ao girar para a operação de multiplicação condicional de matrizes (CMM), o FFF avalia entradas e ativa apenas um número seletivo de neurônios por processo, reduzindo consideravelmente o número de operações necessárias para inferência.

Em sua essência Em essência, o CMM contorna as ineficiências do DMM, garantindo que nenhuma entrada interaja com mais do que um subconjunto de neurônios baseado na necessidade. Essa ativação de neurônios direcionada nas camadas de feedforward rápido permite uma redução drástica na sobrecarga computacional.

Implicações e avaliações

Como parte de sua pesquisa, a equipe da ETH Zurique demonstrou a eficácia da nova técnica desenvolvendo um modelo BERT, denominado FastBERT. Essa variante incorporou camadas de feedforward rápido, reestruturando seus neurônios em uma formação de árvore binária balanceada e envolvendo apenas ramificações específicas com base na entrada.

BERT é um modelo de IA que pode compreender a linguagem natural e executar várias tarefas com ela.. Foi desenvolvido pelo Google em 2018 e se tornou um dos modelos mais populares e poderosos na área de processamento de linguagem natural. BERT significa Representações de codificador bidirecional de transformadores, o que significa que ele pode processar texto da esquerda para a direita e da direita para a esquerda e que usa um tipo especial de rede neural chamado transformador para codificar o significado de palavras e frases.

O desempenho do FastBERT foi avaliado usando os conjuntos de dados General Language Understanding Evaluation (GLUE) e apresentou uma retenção de pelo menos 96,0. % do desempenho do modelo BERT original. Além disso, o modelo FastBERT de melhor desempenho conseguiu igualar os resultados do BERT convencional usando apenas 0,3% de seus neurônios feedforward.

Apesar desses avanços, os desafios permanecem, especialmente na área de otimização de algoritmos. Embora a multiplicação densa de matrizes se beneficie de uma grande variedade de aprimoramentos de hardware e software, o mesmo nível de otimização ainda não foi alcançado para o CMM. No entanto, as tentativas iniciais dos pesquisadores de desenvolver uma implementação baseada em instruções de CPU e GPU produziram um aumento impressionante de 78 vezes na velocidade durante o estágio de inferência. Eles sugerem que com hardware dedicado e integração de algoritmos de baixo nível mais sofisticados, é possível exceder uma melhoria de 300 vezes na velocidade de inferência, o que teria um impacto notável na taxa na qual os modelos de linguagem geram tokens.

Esta pesquisa contribui para os esforços contínuos para aliviar os gargalos de memória e computação frequentemente associados a grandes modelos de linguagem, estabelecendo as bases para sistemas de IA mais eficientes em termos de recursos e poderosos.

Categories: IT Info