Um consórcio de pesquisadores da universidade e da Amazon apresentou uma nova arquitetura de IA, The Energy Based Transformer (EBT). Ele foi projetado para equipar modelos com mais habilidades analíticas do tipo humano. A abordagem tem como objetivo instilar”Sistema 2 pensamento”na IA, que geralmente se baseia em reconhecimento rápido e intuitivo de padrões. Começa com uma solução aleatória e gradualmente o melhora para minimizar uma pontuação calculada de”energia”. Embora os resultados iniciais sugerem que o EBTS pode ser mais eficiente em termos de dados, o método requer mais computação. Isso desafia o paradigma atual do desenvolvimento da IA. O trabalho está disponível em página do projeto e gith src=”Dados: imagem/svg+xml; nitro-inempty-id=mty0mdoxmty4-1; base64, phn2zyb2awv3qm94psiwidagmti4mca0mj EiihdpzhropsixmjgwiiBozwlnahq9ijqymsigEg1sbnm9Imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
da intuição à análise: a busca pelo’sistema 2’ai
A arquitetura EBT representa uma mudança fundamental para longe do paradigma dominante da IA. A maioria dos modelos atuais, incluindo transformadores padrão, Excel em o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que você está fazendo com exceão em geral, com o objetivo de avaliar que é que a variação tenha sido a capacidade de ter um momento de muita alegria e alegria. Instantaneamente. A estrutura EBT é uma tentativa direta de construir esse processo cognitivo mais profundo diretamente na arquitetura do modelo. Um transformador padrão pega uma entrada e gera uma saída em um único passe para a frente determinístico. Por outro lado, um EBT aprende uma “paisagem energética” complexa e de alta dimensão para todas as previsões possíveis relacionadas a um determinado contexto.
Em vez de produzir diretamente uma resposta, o modelo começa com um palpite aleatório e barulhento. Em seguida, ele usa os princípios da descida de gradiente para refinar iterativamente esse palpite, essencialmente”caminhando”para ladeira abaixo na paisagem energética aprendida até se estabelecer no ponto mais baixo possível, ou”vale de energia”. Esse processo de refinamento iterativo é o núcleo do mecanismo de”pensamento”do EBT. Ele permite que o modelo explore um espaço de soluções em potencial, em vez de estar preso em um único caminho. O primeiro é a alocação dinâmica de computação. Para um problema simples, o modelo pode achar o mínimo de energia em apenas algumas etapas. Para um complexo, pode tomar muito mais etapas, gastando efetivamente mais”pensamento”no problema.
A segunda faceta é a capacidade de modelar a incerteza. Uma paisagem de energia suave com um mínimo claro indica alta certeza. Uma paisagem acidentada com muitos vales locais sugere que o modelo é incerto, pois existem várias respostas plausíveis. Isso fornece uma compreensão mais sutil da própria confiança do modelo.
Terceiro, a arquitetura inclui um mecanismo intrínseco para verificação de previsão. A pontuação de energia final de uma previsão serve como uma verificação de qualidade embutida. Uma pontuação baixa indica uma resposta verificada de alta qualidade, enquanto uma pontuação alta sinaliza uma pobre, tudo sem precisar de um modelo de verificador separado.
Ao integrar esses três recursos, o EBT visa criar uma forma mais robusta e generalizável de raciocínio. Ele vai além da geração simples de padrões para um processo de solução de problemas ativa e iterativa, marcando um passo conceitual significativo na busca por inteligência artificial mais capaz.
Como os transformadores baseados em energia’pensam’
O núcleo de uma abordagem reivindica uma solução significativa de que uma solução significativa, que se solta, para que uma solução significativa de que uma abordagem é que uma abordagem de um verde que se refere a um dos mais importantes, o que se refere a uma solução significativa de que uma abordagem é uma das contas significativas. Embora um transformador padrão deva aprender o caminho direto para uma resposta, um EBT aprende a pontuar a”correção”de qualquer resposta-uma tarefa mais simples que parece generalizar com mais eficácia. Seu artigo relata que o EBTS escala com mais eficiência do que a linha de base avançada do transformador ++, aparecendo até uma taxa de escala 35% mais alta em relação aos dados.
A eficiência de dados aprimorada é particularmente digna de nota. Ele sugere que, em escala, um EBT poderia atingir o mesmo desempenho que um transformador padrão, treinando significativamente menos dados. Em uma época em que o setor está se aproximando dos limites dos dados de treinamento de alta qualidade disponíveis na Web, o desenvolvimento de mais arquiteturas com eficiência de dados é uma meta estratégica crítica para o progresso contínuo da IA. Primeiro, o modelo pode executar etapas de refinamento mais iterativas em uma única previsão, dedicando efetivamente mais computação a um problema difícil. Segundo, ele pode gerar várias respostas do candidato e usar sua função de energia interna para se auto-ver e selecionar a com a energia mais baixa, indicando a maior compatibilidade. Esse aumento de desempenho é mais pronunciado nas tarefas fora da distribuição (OOD)-os problemas que diferem dos dados de treinamento.
Autor Alexi Gladstone afirma que “Transformadores baseados em energia são a primeira abordagem para superá-lo dos transformadores de feed-forward entre modalidades e com relação a vários eixos, incluindo dados, parâmetros, faixas, etc.” Ao pensar mais em inferência, o EBTS melhorou o desempenho da tarefa de linguagem em até 29%. Isso sugere que o processo iterativo lhes permite raciocinar de maneira mais robusta em novas situações em que os modelos padrão podem depender da correspondência de padrões defeituosos. Atualmente, o treinamento desses modelos requer entre 3,3 e 6,6 vezes mais operações de ponto flutuante (fracassos) do que os transformadores padrão. Essa sobrecarga substancial não é apenas uma preocupação teórica; Ele representa uma barreira significativa à adoção, potencialmente limitando a pesquisa e o desenvolvimento da EBT apenas aos laboratórios acadêmicos mais bem financiados e às grandes empresas de tecnologia com vastos recursos computacionais. Ao contrário do passe para a frente de um modelo padrão, cada etapa de refinamento em um EBT envolve cálculos de gradiente complexos para determinar a direção do próximo”pensamento”. Esse processo, que requer o cálculo de derivados de segunda ordem (ou aproximações eficientes como produtos de vetor hessiano), é fundamentalmente mais intensivo. A equipe reconhece que esta é uma área-chave para o trabalho de otimização futura, pois tornar esse processo de’pensamento’mais barato é essencial para a implantação prática.
Além disso, os experimentos iniciais foram realizados em modelos com até 800 milhões de parâmetros. Esta é uma fração do tamanho dos maiores sistemas de IA de hoje, que geralmente excedem centenas de bilhões de parâmetros. Escalar uma arquitetura por ordens de magnitude é notoriamente difícil, muitas vezes revelando desafios imprevistos, como treinamento de instabilidades ou paisagens energéticas que se tornam complexas demais para navegar efetivamente. Portanto, continua sendo uma questão em aberto se os benefícios de desempenho observados nessa escala menor se manterão, ou mesmo amplificarão, quando aplicados aos modelos de fronteira. A resposta provavelmente dependerá do aplicativo. Para tarefas científicas ou analíticas de alto risco, o preço pode ser justificado, mas para uso geral, a análise de custo-benefício continua sendo uma questão crítica e não resolvida. Várias empresas estão enfrentando esse desafio de diferentes ângulos, destacando a necessidade crítica de reduzir os imensos custos associados à IA em larga escala.
Esses métodos concorrentes abordam a eficiência em diferentes estágios. O Compactifai do Multiverse comprime o próprio modelo estático. O NAMMS de Sakana otimiza o cache dinâmico de KV durante a inferência. O Bamba da IBM usa uma arquitetura híbrida para acelerar o processamento de sequência.
Em contraste, o EBTS altera fundamentalmente o próprio mecanismo de previsão. Em vez de apenas otimizar um modelo acabado ou sua memória, o EBTS integra um processo de”pensamento”diretamente na forma como cada previsão é formada, visando melhor generalização e raciocínio desde o início. Seu CEO, Enrique Lizaso Olmos, observou: “A sabedoria predominante é que os LLMs de encolhimento têm um custo. Multiverse está mudando isso”. Enquanto isso, o modelo BAMBA da IBM tem como alvo a velocidade de inferência.
O líder do projeto da IBM, Raghu Ganti, explicou a estratégia:”Tudo volta à redução do cache do KV… mais taxa de transferência, menor latência, comprimento de contexto mais longo”. Outras inovações, como o sistema de otimização de memória da Sakana AI, também visam tornar os transformadores mais eficientes. Os pesquisadores de Sakana descobriram que”a evolução supera inerentemente a não diferença de nossas operações de gerenciamento de memória, que envolvem resultados binários de”lembrar”ou”esquecer”.”
Essas abordagens variadas mostram uma mudança no desenvolvimento da IA. À medida que os modelos crescem, a indústria está correndo para encontrar maneiras sustentáveis de treiná-los e implantá-los. Os pesquisadores da EBT acreditam que seu trabalho é uma parte essencial desse futuro, concluindo que “o EBTS é um novo paradigma promissor para dimensionar as capacidades de aprendizado e pensamento dos modelos”.