A Microsoft Research apresentou uma nova estrutura chamada LongMem que aprimora os recursos de modelos de linguagem grandes (LLMs), permitindo que eles utilizem memória de longo prazo. A pesquisa, encapsulada no artigo “Augmenting Language Models with Long-Term Memory”, é fruto da imaginação de uma equipe de pesquisadores que inclui Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng Gao e Furu Wei.

Estrutura LLM com memória de entrada abrangente

A equipe identificou uma limitação importante nos LLMs atuais: sua incapacidade de lidar com mais do que entradas de tamanho fixo devido a um limite de comprimento de entrada e limites de memória de longo prazo. Essas restrições impedem que LLMs, como GPT-4 de OpenAI usado no Bing Chat e ChatGPT, aproveitem totalmente informações ricas de contexto longo derivadas de entradas anteriores.

Como são chamados os limites de entrada de contexto referem-se ao número máximo de tokens que os LLMs podem processar por vez, o que restringe sua capacidade de usar informações ricas de contexto longo de entradas anteriores. Os limites de memória de longo prazo descrevem a dificuldade de armazenar e recuperar informações relevantes de entradas anteriores durante um longo período de tempo.Para superar esses desafios, os pesquisadores propuseram vários métodos para aumentar os LLMs com memória de longo prazo, como atenção esparsa, memória em cache e arquiteturas de memória desacoplada. Esses métodos visam permitir que os LLMs memorizem e utilizem conteúdos de formato longo para modelagem de linguagem e tarefas downstream.

Para contornar esse problema, os pesquisadores introduziram uma nova estrutura, Modelos de linguagem aumentados com memória de longo prazo (LongMem). Esta solução inovadora permite que os LLMs armazenem um histórico abrangente de entradas, utilizando assim a memória de longo prazo para modelagem de linguagem.

Cache para contextos de longo prazo

Em seu projeto, os pesquisadores incorporaram uma arquitetura de rede desacoplada única. Isso inclui o LLM de backbone original funcionando como um codificador de memória e uma rede lateral residual adaptativa que atua como um recuperador e leitor de memória. Esse design engenhoso facilita o armazenamento em cache e a atualização de contextos passados ​​de longo prazo para recuperação de memória, evitando o problema de desatualização da memória.

Um dos recursos de destaque da estrutura LongMem é ​​sua capacidade de lidar com um número ilimitado-length contexto em seu banco de memória. Esse recurso pode ser aproveitado para beneficiar uma ampla gama de tarefas downstream. Além disso, o LongMem pode expandir a memória de formato longo para 65k tokens, armazenando em cache vários exemplos de demonstração extras como memória de formato longo para aprendizado no contexto.

Bons resultados no benchmark ChapterBreak

A equipa pôs à prova o seu método através de uma série de experiências. Os resultados foram impressionantes, com LongMem superando fortes modelos de contexto longo no ChapterBreak, um benchmark desafiador de modelagem de contexto longo para modelos de linguagem grandes (LLM).

ChapterBreak é um conjunto de dados que testa a capacidade de modelos de linguagem de longo alcance (LRLMs) de entender transições de nível de discurso em narrativas. Ele fornece um longo segmento de uma narrativa que termina no limite de um capítulo e pede ao LRLM para distinguir o início do próximo capítulo de verdade de um conjunto de segmentos negativos amostrados da mesma narrativa. O benchmark é desafiador porque requer o processamento do contexto global e a compreensão de tipos complexos de transições de capítulo.

Além disso, ele demonstrou melhorias notáveis ​​no aprendizado no contexto com aumento de memória em relação aos LLMs. Para os interessados ​​em aprofundar a pesquisa, o documento está acessível no servidor de pré-impressão arXiv.

Categories: IT Info