Microsoft e Beihang University revelam técnica de ajuste fino MoRA LLM

Pesquisadores da Microsoft e da Universidade Beihang apresentaram o MoRA, uma nova técnica projetada para ajustar modelos de linguagem grande (LLMs) com maior eficiência e custos reduzidos.

Ao contrário do Ajuste fino com eficiência de parâmetros (PEFT), o MoRA se concentra no ajuste de um subconjunto ideal de parâmetros, permitindo que o modelo aprenda novas informações sem revisar todo o seu conjunto de parâmetros. Este método agiliza o processo de adaptação dos LLMs a tarefas específicas, ao mesmo tempo que reduz significativamente os recursos necessários para o ajuste fino.

Desafios com métodos tradicionais

Tradicionais Métodos PEFT, como Low-Rank Adaptation (LoRA), foram amplamente adotados devido às suas menores demandas de memória e facilidade de armazenamento e implantação de modelos ajustados. No entanto, estes métodos enfrentam limitações quando lidam com tarefas complexas que requerem ampla expansão de conhecimento, tais como raciocínio matemático avançado e pré-treinamento contínuo em diversos domínios. Os pesquisadores identificaram que o mecanismo de atualização de baixa classificação do LoRA tem dificuldade para assimilar e armazenar novas informações de maneira eficaz devido ao tamanho limitado da classificação de seu adaptador em comparação com o modelo completo.

Diferenças estruturais do MoRA

MoRA se diferencia por usar uma matriz quadrada para ajuste de parâmetros, em oposição às matrizes de baixa classificação empregadas pelo LoRA. Esta mudança estrutural permite ao MoRA alcançar uma classificação mais elevada dentro das dimensões originais do modelo, aumentando a sua capacidade de incorporar novos conhecimentos de forma mais eficaz do que o LoRA ou modelos de tamanho semelhante. Para integrar este novo sistema nas estruturas LLM existentes sem interromper seus parâmetros operacionais, a equipe desenvolveu uma função exclusiva de compressão-descompressão que facilita transições suaves entre os espaços do modelo modificado e original.

A eficácia prática do MoRA foi avaliada por meio de uma série de análises comparativas com adaptações LoRA de tamanhos iguais. Os resultados demonstraram o desempenho superior do MoRA em tarefas de memorização e sua eficácia comparável no ajuste de instruções e no raciocínio matemático. Em áreas que exigem pré-treinamento contínuo, como os setores biomédico e financeiro, a capacidade aprimorada do MoRA para atualização de alto nível provou ser particularmente benéfica, superando consistentemente os modelos LoRA.

Implicações para empresas e desenvolvedores

Com a introdução do MoRA, a abordagem para o ajuste fino com eficiência de parâmetros deverá evoluir. As empresas e os desenvolvedores que trabalham com LLMs podem aproveitar o MoRA para utilizar modelos menores e mais especializados para tarefas complexas, sem incorrer nos altos custos associados a sistemas maiores e mais generalizados. O lançamento de código aberto do MoRA pelos pesquisadores amplifica ainda mais seu impacto potencial, oferecendo uma ferramenta robusta para aprimorar modelos básicos com conhecimento novo e especializado em diversas áreas de aplicação.

Microsoft e Beihang University revelam técnica de ajuste fino MoRA LLM

Published by All Things Windows on May 29, 2024

Desafios com métodos tradicionais

Diferenças estruturais do MoRA

Implicações para empresas e desenvolvedores

IT Info

Microsoft descobre grupo norte-coreano por trás do FakePenny Ransomware

IT Info

NV-Embed: o mais recente modelo de PNL da NVIDIA se destaca em vários benchmarks

IT Info

Estudo revela tsunami de imagens de IA que espalham desinformação

Microsoft e Beihang University revelam técnica de ajuste fino MoRA LLM

Published by All Things Windows on May 29, 2024

Desafios com métodos tradicionais

Diferenças estruturais do MoRA

Implicações para empresas e desenvolvedores

Related Posts

IT Info

Microsoft descobre grupo norte-coreano por trás do FakePenny Ransomware

IT Info

NV-Embed: o mais recente modelo de PNL da NVIDIA se destaca em vários benchmarks

IT Info

Estudo revela tsunami de imagens de IA que espalham desinformação