Um novo estudo está desafiando a abordagem”maior é melhor”da indústria de IA para as janelas de contexto. A Chroma Research, uma empresa que desenvolve bancos de dados de vetores de IA, publicou seu “Relatório de contexto”Phelts em julho de 2025. exigindo um verdadeiro entendimento semântico quando sobrecarregado com informações, não apenas a recuperação de dados simples. Essas descobertas questionam a corrida em direção a janelas de token de vários milhões de empresas como Google e Minimax, que oferece uma janela de contexto de 4 milhões de token recorde. Os autores afirmam: “Demonstramos que, mesmo nessas condições mínimas, o desempenho do modelo se degrada à medida que o comprimento da entrada aumenta, geralmente de maneiras surpreendentes e não uniformes,”destacando a natureza diferenciada do problema.

Os achados’Rote o contexto’

A pesquisa do Chroma vai além do padrão

O desempenho caiu acentuadamente nesses testes semânticos. O problema foi agravado ao adicionar”distratores”-declarações com topicamente relacionadas, mas incorretas. O estudo observou que os modelos de GPT tendiam a alucinar respostas erradas, enquanto os modelos de Claude geralmente se recusavam a responder quando confrontados com essa ambiguidade. O desempenho foi pior quando o texto foi logicamente estruturado e coerente. Isso sugere que a estrutura da entrada, não apenas seu conteúdo, afeta a atenção do modelo. Os modelos consistentemente tiveram um desempenho pior ao receber o histórico completo de conversas em comparação com quando receberam apenas os trechos mais relevantes, provando ainda mais o efeito”podridão do contexto”. Eles se alinham a um crescente corpo de pesquisa de outros principais laboratórios que identificaram limitações semelhantes no processamento de longo contexto. Isso indica um problema sistêmico com a geração atual de LLMs. Ele argumentou que ajuda o modelo a concentrar sua atenção limitada no que é mais importante para a tarefa em questão. sofreu quedas de desempenho graves à medida que o comprimento do contexto aumentou. Isso foi especialmente verdadeiro para tarefas que evitavam a correspondência simples de palavras-chave. Em seus testes de diálogos de várias turnos, a precisão caiu de uma alta de 90 % para apenas 51 %, à medida que os requisitos do usuário foram explicados por muitas etapas.

Mesmo modelos com maiores janelas teóricas de contexto, como o Maverick de Llama 4 da Meta, luta na prática. Apesar de uma capacidade técnica de dez milhões de tokens, ele mostrou Poor Accuracy no remendido no real 28,1% em um desses testes. A maneira como as informações são selecionadas, estruturadas e apresentadas ao modelo é fundamental para um desempenho confiável.

Isso levou a uma ênfase crescente na”engenharia de contexto”. Esta é uma estratégia deliberada que envolve o pré-processamento de informações para fornecer ao LLM apenas os dados de alto sinal mais relevante, estruturados para a compreensão ideal. Ele contrasta fortemente com o método da força bruta de apenas aumentar a janela de contexto.

Os pesquisadores do Chroma concluem seu relatório destacando essa mudança.”Nossos resultados destacam a necessidade de uma avaliação mais rigorosa de longo prazo além dos benchmarks atuais, bem como a importância da engenharia de contexto”, eles escreveram, apontando para uma nova área de foco para desenvolvedores que desejam criar aplicativos de IA confiáveis. href=”https://github.com/chroma-core/context-rot”Target=”_ Blank”> disponível publicamente no site de pesquisa do Chroma e no github .

Categories: IT Info