Un nuevo estudio está desafiando el enfoque”más grande es mejor”de la industria de la IA para las ventanas de contexto. Chroma Research, una empresa que desarrolla bases de datos de vectores de IA, publicó su Informe de”rotación”de contexto En julio de 2025. Revela que el modelo de lenguaje grande (LLM) el desempeño significativa empuja a la duración de la entrada. Comprensión semántica cuando se sobrecarga con información, no solo una simple recuperación de datos. Estos hallazgos cuestionan la carrera hacia ventanas de token multimillonas de compañías como Google y Minimax, que ofrece una ventana de contexto de token de 4 millones de récord.

El estudio sugiere que la”ingeniería de contexto”efectiva, la curación cuidadosa de los datos de entrada, es más crítica para lograr resultados de IA confiables que simplemente proporcionar información más bruta. Los autores afirman:”Demostramos que incluso en estas condiciones mínimas, el rendimiento del modelo se degrada a medida que aumenta la longitud de entrada, a menudo de manera sorprendente y no uniforme”, destacando la naturaleza matizada del problema.

>

Los resultados de”Rot de contexto”

La investigación de Chroma va más allá del estándar aguja en un heno (niah (niah) (niah), tests (niah (niah). Solo mida la capacidad de un modelo para encontrar una pieza exacta de texto. En cambio, probó 18 modelos principales sobre su capacidad para hacer inferencias a partir de información semánticamente relacionada, pero no idéntica. Cuando el texto fuente solo establece que”Yuki vive al lado del Museo Kiasma”. Responder correctamente requiere que el modelo infiera una conexión usando el conocimiento del mundo, una tarea mucho más difícil que la simple coincidencia de palabras clave.

El rendimiento disminuyó bruscamente en estas pruebas semánticas. El problema empeoró al agregar”distractores”, declaraciones tópicamente relacionadas pero incorrectas. El estudio señaló que los modelos GPT tendían a alucinar las respuestas incorrectas, mientras que los modelos de Claude a menudo se negaban a responder cuando se enfrentaban a tanta ambigüedad.

En un giro sorprendente, el estudio encontró que los modelos funcionaban mejor cuando el texto era un revoltijo de oraciones al azar. El rendimiento fue peor cuando el texto estaba lógicamente estructurado y coherente. Esto sugiere que la estructura de la entrada, no solo su contenido, impacta la atención del modelo.

El equipo también probó el rendimiento en Benchmark de LongMemeval , que utiliza historias de chat largas. Los modelos se desempeñaron consistentemente cuando se les dio el historial de conversación completo en comparación con cuando solo se les dio los extractos más relevantes, lo que demuestra aún más el efecto de”contexto de pudrición”.

un problema de toda la industria

Los hallazgos de croma no son un final. Se alinean con un creciente cuerpo de investigación de otros laboratorios importantes que han identificado limitaciones similares en el procesamiento de contexto largo. Esto indica un problema sistémico con la generación actual de LLM.

En mayo de 2025, Nikolay Savinov en Google Deepmind explicó que recortar el contenido irrelevante siempre es beneficioso para la precisión del modelo. Argumentó que ayuda al modelo a concentrar su atención limitada en lo que es más importante para la tarea en cuestión.

[Contenido integrado]

De manera similar, un estudio conjunto de LMU Munich y Adobe Research usando nolima benchmark encontró que los modelos de modelos ENTLODEMINE). sufrió grandes caídas de rendimiento a medida que aumentaba la longitud del contexto. Esto fue especialmente cierto para las tareas que evitaban la coincidencia simple de palabras clave.

Microsoft y Salesforce informaron a caída dramática en confiabilidad durante conversaciones más largas . En sus pruebas de diálogos múltiples, la precisión cayó de un máximo de 90 por ciento a solo 51 por ciento, ya que los requisitos del usuario se explicaban en muchos pasos.

Incluso modelos con ventanas de contexto teóricas masivas, como Meta’s Llama 4 Maverick, lucha en la práctica. A pesar de una capacidad técnica de diez millones de tokens, ha mostrado Pobre precisión en Benchmars diseñados para reflejar a los escenarios de reales largos en el mundo real. Una de esas pruebas.

El pivote a la ingeniería del contexto

Los hallazgos consistentes en toda la industria subrayan un mensaje crítico: simplemente expandir la ventana de contexto no es una bala de plata para mejorar el razonamiento de la IA. La forma en que la información se selecciona, estructura y se presenta al modelo es primordial para un rendimiento confiable.

Esto ha llevado a un énfasis creciente en la”ingeniería del contexto”. Esta es una estrategia deliberada que involucra el preprocesamiento de la información para proporcionar a la LLM solo los datos más relevantes, de alta señal, estructurados para una comprensión óptima. Se mantiene en marcado contraste con el método de fuerza bruta de simplemente aumentar la ventana de contexto.

Los investigadores de croma concluyen su informe al destacar este cambio.”Nuestros resultados resaltan la necesidad de una evaluación de contexto a largo plazo más riguroso más allá de los puntos de referencia actuales, así como la importancia de la ingeniería del contexto”, escribieron, señalando una nueva área de enfoque para los desarrolladores que buscan construir aplicaciones de IA confiables.

El informe técnico completo de”Rot de contexto”y un kit de herramientas para los desarrolladores para replicar los resultados del estudio ahora son disponible públicamente en el sitio web de Chroma Research y en Github .

Categories: IT Info