antrópico está intensificando la carrera de la ventana de contexto de IA, actualizando su modelo Claude Sonnet 4 para manejar 1 millón de tokens. Disponible ahora en beta pública , el movimiento pone antrópico en competencia directa con el aumento de la compañía de 5x de OpenAI, el aumento total de los 5xs de Meta y el aumento de la capacidad de Meta. Basas de código o grandes conjuntos de documentos a la vez. This industry-wide push comes just as recent studies on “Context Rot”suggest model performance can worsen with long inputs, raising questions about the strategy.

Anthropic Joins the Million-Token Club

The upgrade to Claude Sonnet 4, representing a fivefold increase in capacity, is now accessible in public beta through the API antrópico oficial y Amazon Bedrock. La compañía también ha confirmado que la característica llegará pronto a Vertex AI de Google Cloud, ampliando su disponibilidad para desarrolladores empresariales. Anthrope está posicionando esta mejora para una nueva clase de aplicaciones complejas intensivas en datos que anteriormente no eran prácticas.

según la compañía de los casos de la ventana expandida más comprensiva. Para los desarrolladores, esto significa la capacidad de realizar un análisis de código a gran escala cargando bases de código enteras, lo que permite que el modelo comprenda la arquitectura del proyecto e identifique las dependencias de archivos cruzados. Para los investigadores y analistas, permite la síntesis de conjuntos de documentos extensos, como contratos legales o especificaciones técnicas, al tiempo que mantiene el contexto completo en cientos de fuentes. También faculta la creación de agentes más sofisticados y conscientes del contexto que pueden mantener la coherencia en cientos de llamadas de herramientas y flujos de trabajo de varios pasos.

Los primeros usuarios han elogiado la nueva capacidad de su impacto en los proyectos del mundo real. Bolt.new, una compañía que integra a Claude en su plataforma de desarrollo basada en navegador, destacó el rendimiento continuo de los competidores del modelo. Eric Simons, el CEO y cofundador de la compañía, declaró que”con la ventana de contexto 1M, los desarrolladores ahora pueden trabajar en proyectos significativamente más grandes mientras mantienen la alta precisión que necesitamos para la codificación del mundo real”.

De manera similar, Igent AI basada en Londres, que está desarrollando un socio de ingeniería de software AI llamado Maestro, informó un impacto transformador. Sean Ward, CEO y cofundador de Igent AI, describió la actualización como un cambio fundamental, señalando que permite”Ingeniería de escala de producción verdadera: sesiones de los días de los días en el mundo real. El panorama competitivo ya incluye Minimax, con sede en Singapur, que reveló un modelo de token de 4 millones en enero, estableciendo una barra alta para la industria. También incluye a Meta, cuyo modelo de Llama 4 Scout cuenta con una capacidad de token de 10 millones, empujando los límites del procesamiento de contexto largo aún más.

bajo el capó: Claude sonnet 4 vs. GPT-5 API

Anthópico El precio para la nueva característica tiene niveles . Para las indicaciones de hasta 200,000 tokens, el costo es de $ 3 por millón de tokens de entrada. Para indicaciones más grandes, el precio se duplica a $ 6 por millón de tokens de entrada. Esta estructura está diseñada para administrar la mayor carga computacional de contextos más largos.

Esto contrasta con el enfoque de OpenAI para su GPT-5 recientemente lanzado. Si bien sus interfaces web tienen límites más pequeños, la API GPT-5 ofrece una ventana de contexto máximo de 400,000 tokens. Este nivel superior está reservado exclusivamente para usuarios de API, dirigidos a los desarrolladores que crean aplicaciones que requieren un análisis de documentos profundos. Gemini 2.5 Pro de Google admite una ventana de contexto de hasta 1 millón de tokens. 

El problema de”pudrición de contexto”: ¿es más grande siempre mejor?

Si bien la industria corre hacia ventanas de contexto cada vez más largas, un creciente cuerpo de investigación sugiere que el tamaño de entrada aumentando no garantiza un mejor rendimiento. Un informe reciente de Chroma Research introdujo el concepto de”pudrición del contexto”, desafiando la narrativa”más grande es mejor”.

El estudio fue más allá de las simples pruebas de”aguja en un pajar”, que solo miden la recuperación de datos. En cambio, probó 18 LLM principales en su capacidad para hacer inferencias a partir de información semánticamente relacionada, una tarea mucho más difícil. Los investigadores señalaron:”Demostramos que incluso en estas condiciones mínimas, el rendimiento del modelo se degrada a medida que aumenta la longitud de entrada, a menudo de manera sorprendente y no uniforme”.

Por ejemplo, se pidió a los modelos que inferieran la ubicación de un personaje de las pistas indirectas, una tarea donde el rendimiento disminuyó bruscamente a medida que se agregaba un texto más distractor. El estudio también encontró que los modelos GPT tendían a alucinar las respuestas incorrectas, mientras que los modelos de Claude a menudo se negaban a responder cuando se enfrentaban a la ambigüedad.

Sorprendentemente, el estudio de croma encontró que los modelos funcionaban mejor cuando el texto se barajaba al azar, lo que sugiere que la estructura de entrada influye en gran medida en la atención del modelo. Estos hallazgos no están aislados. Un estudio conjunto de Microsoft y Salesforce informó una caída de rendimiento del 39% en conversaciones largas y de múltiples vueltas.

Incluso los modelos con enormes límites teóricos enfrentan desafíos prácticos. Según los informes, la Llama 4 de Meta, a pesar de su ventana de token de 10 millones, ha tenido problemas en los puntos de referencia de contexto largo. Esto ha llevado a algunos, como el investigador de IA, Gary Marcus, a cuestionar todo el enfoque. Argumentó:”Nadie con integridad intelectual todavía puede creer que la escala pura nos llevará a AGI”.

Esta evidencia sugiere que la”ingeniería del contexto”, la cuidadosa curación de los datos relevantes y de alta calidad, es más crítico para la IA confiable que la expansión de la fuerza bruta de las ventanas de contexto. A medida que los desarrolladores obtienen acceso a estas nuevas herramientas poderosas, el enfoque puede cambiar de la cantidad de datos que puede manejar un modelo a qué tan bien se preparan los datos.

.

Categories: IT Info