Modelos de linguagem grandes precisam lidar com sequências cada vez mais longas, mas os métodos atuais são muito lentos ou muito limitados, dificultando ir além de um determinado comprimento. Para ajudar a superar esse obstáculo, a Microsoft apresenta o LongNet, um novo tipo de Transformer capaz de lidar com sequências de mais de 1 bilhão de tokens, sem perder desempenho nos mais curtos.

A empresa tem publicou um artigo que propõe uma nova variante de modelo de transformador de IA chamada Microsoft LongNet. Um modelo de transformador é um tipo de arquitetura de rede neural que pode processar dados sequenciais, como linguagem natural ou fala. Modelos de linguagem grande (LLM), como GPT-4 da OpenAi, LLaMA da Meta ou PaLM 2 do Google, são baseados em um modelo de transformador que foi treinado em dados de texto extensos.

A principal inovação do Microsoft LongNet é a atenção dilatada, que cobre mais tokens à medida que a distância aumenta, reduzindo a complexidade do cálculo e a dependência entre os tokens. O artigo mostra que o LongNet pode ter um bom desempenho tanto na modelagem de sequência longa quanto em tarefas gerais de linguagem e pode ser facilmente integrado à otimização existente baseada no Transformer. O artigo também discute as possíveis aplicações do LongNet para modelar sequências muito longas, como usar um corpus inteiro ou até mesmo toda a Internet como uma sequência.

Especialista em IA e documentador David Shapiro postou um vídeo no YouTube discutindo por que o Microsoft Longnet é um grande avanço. Como uma visão geral do que significa ser capaz de ver um bilhão de tokens, Shapiro oferece um exemplo de uma imagem de 3 GB. Ele explica como os humanos são capazes de ver a imagem inteira e entendê-la, mas também de ver pequenos detalhes na imagem e entendê-los.

[conteúdo incorporado]

IA não é sempre tão hábeis em ver os pequenos detalhes. Muitas vezes, ele pode ver o quadro maior, mas pode se perder nos aspectos menores do que está vendo. Um grande exemplo disso são os atuais modelos de linguagem grande que sustentam chatbots como Google Bard ou Bing Chat. Essas poderosas ferramentas de IA geralmente podem revelar informações que cobrem um tópico, mas muitas vezes podem fornecer informações incorretas ao entrar em detalhes menores.

O que é tokenização e por que é crucial para a IA

Natural Language Processing (NLP) é o campo da IA ​​que lida com a compreensão e geração da linguagem humana. Mas antes de podermos enviar texto para um computador, precisamos dividi-lo em partes menores que o computador possa manipular. Esse processo é chamado de tokenização e é uma das etapas mais básicas e essenciais da PNL.

Tokenização é como cortar um bolo em fatias: você pega um texto grande e complexo e o divide em unidades menores e mais simples, como palavras, frases ou caracteres. Por exemplo, a frase”I love NLP”pode ser transformada em três palavras:”I”,”love”e”NLP”.

Mas a tokenização não é apenas uma simples operação de divisão. É também uma arte e uma ciência, pois diferentes idiomas e tarefas exigem diferentes formas de tokenizar o texto. Por exemplo, alguns idiomas, como chinês ou japonês, não possuem espaços entre as palavras, então precisamos usar algoritmos especiais para encontrar os limites das palavras. Algumas tarefas, como análise de sentimento ou resumo de texto, podem se beneficiar ao manter sinais de pontuação ou emoticons como tokens, pois eles transmitem informações importantes.

A tokenização também é um componente chave dos métodos NLP tradicionais e modernos. Em métodos tradicionais, como Count Vectorizer, usamos tokenização para criar uma representação numérica de texto com base na frequência de cada token. Em métodos modernos, como Transformers, usamos a tokenização para criar uma sequência de tokens que pode ser processada por uma rede neural.

A tokenização é, portanto, uma etapa crucial no NLP, pois determina como o texto é representado e compreendido pelo computador. Também é um tópico fascinante, pois revela a diversidade e a complexidade da linguagem natural.

O que a expansão do número de tokens significa para o desenvolvimento de IA

Ao expandir o número de tokens, o modelo AI pode essencialmente todo o quadro geral, ao mesmo tempo em que pode se concentrar nos detalhes menores. A ideia do Microsoft LongNet é usar atenção dilatada que expande o número de tokens que ele usa conforme a distância se expande.

LongNet tem vários benefícios:

Tem uma velocidade de computação rápida e uma pequena dependência entre tokens; Pode ser usado como um treinador distribuído para sequências muito longas; Sua atenção dilatada pode ser facilmente adicionada a qualquer otimização existente baseada no Transformer.

Isso significa que o LongNet é capaz de modelar sequências longas e também tarefas gerais de linguagem. David Shapiro explica que o papel da Microsoft sinaliza um impulso para a inteligência geral artificial (AGI). Ele aponta que a capacidade de ter mais tokens significa que pode cobrir com precisão tarefas massivas instantaneamente. Shapiro oferece a pesquisa médica como exemplo, onde milhares de periódicos podem ser lidos pela IA.

A propósito, essa é a capacidade de ler toda a Internet de uma só vez e em segundos. Também é importante notar que o LongNet é apenas o começo. À medida que o conceito se torna mais poderoso, Shapiro diz que eventualmente será capaz de ver trilhões de tokens e até mesmo um dia toda a Internet. Quando isso acontecer, o crescimento se estenderá além das capacidades humanas e a IA poderá se mover em direção à AGI.

A LongNet está em fase de pesquisa e Shapiro prevê que pode não ver suas capacidades por pelo menos um ano. Mesmo assim, com o rápido desenvolvimento da IA, parece que uma inteligência extremamente poderosa pode estar mais próxima do que muitas pessoas previram originalmente. Algumas previsões colocam o desenvolvimento de uma superinteligência em pelo menos 20 anos, enquanto alguns acreditam que nunca iremos alcançá-lo.

Categories: IT Info