Después de semanas de quejas de usuarios y especulaciones sobre una disminución en el rendimiento de su IA, Anthrope ha roto su silencio.
La compañía publicó una postmortem técnica detallada que revela que tres errores de infraestructura distintos y superpuestos fueron la causa de los problemas de calidad recientes con sus modelos de claudos.
la firma a la AI de la AI preferida a la intención de la intención”. “We never reduce model quality due to demand, time of day, or server load. The problems our users reported were due to infrastructure bugs alone.”
The direct address aims to quell widespread frustration from developers who rely en la plataforma y había comenzado a Perder confianza después de experimentar semanas de las respuestas degradadas e incobradas . El anuncio proporciona una mirada rara y transparente en la compleja infraestructura requerida para servir modelos de idiomas grandes a escala.
Un verano de frustración culmina en una explicación
Los problemas comenzaron subtuamente pero se intensifican significativamente. The first bug, a “context window routing error,”was introduced on August 5, initially affecting a mere 0.8% of Sonnet 4 requests, according to the company’s postmortem.
It incorrectly sent consultas a los servidores configurados para una futura ventana de contexto de 1M Token.
Este problema menor se amplificó drásticamente mediante un cambio de equilibrio de carga el 29 de agosto. En su pico, el error afectó el 16% de las solicitudes de soneto 4. El problema se vio agravado por el”enrutamiento adhesivo”, que encerró a los usuarios afectados en sesiones con los servidores defectuosos, haciendo que el bajo rendimiento se sintiera persistente.
Esto siguió una controversia separada en julio, cuando Anthrope enfrentó una reacción de los usuarios significativas para imponer limitaciones de uso restrictivo en su código de código de Claude sin previo aviso.
la combinación de los usuarios de los usuarios de los usuarios restringidos y luego los usuarios de uso restringido y luego los usuarios de los usuarios de los usuarios. La confiabilidad de la plataforma.
debajo del capó: una cascada de tres errores superpuestos
La investigación de Anthrope descubrió una tormenta perfecta de fallas técnicas. El 25 de agosto, se desplegaron dos errores más.
uno fue un problema de”corrupción de salida”en los servidores TPU de la compañía, lo que hizo que el modelo inyectara ocasionalmente caracteres aleatorios y fuera de contexto, como el script tailandés, en respuestas en inglés. href=”https://cloud.google.com/tpu/docs/intro-to-tpu”target=”_ blank”> xla: tpu compiler . Una reescritura de código destinada a mejorar la precisión en el muestreo de token desencadenó inadvertidamente este defecto.
causó la operación de”aproximación de Top-K”, una optimización de rendimiento, para devolver a veces los resultados incorrectos, impactando directamente la calidad de selección del token.
Esta Cascada técnica creó una mezcla de confusión de síntomas que variaron a través de diferentes modelos y las plataformas, lo que hace que sea difícil por los usuarios de los ingenianos y los usuarios de los ingenianos y los usuarios creados por los usuarios y los usuarios. apunte a una sola causa raíz.
La experiencia para muchos fue simplemente que una herramienta que una vez se había vuelto no confiable.
por qué la detección fue difícil y cómo la antropic está arreglándola
antrópico admitió sus procesos de validación estándar, que dependía de los benchmars y las evaluaciones de seguridad, no lograron la degradación. En su postmortem, la compañía explicó que estos”problemas expusieron las brechas críticas”. Las evaluaciones simplemente no capturaron las fallas específicas que los usuarios estaban informando.
Un desafío clave surgió de la propia resiliencia del modelo. Claude a menudo se recupera bien de los errores aislados, que enmascararon efectivamente la deriva sistémica causada por los errores subyacentes.
Esto creó una señal confusa, donde la IA parecía estar realizada normalmente en las métricas agregadas, incluso cuando las experiencias de los usuarios individuales sufrieron. Estas medidas de seguridad limitan el acceso de los ingenieros a las interacciones del usuario, evitando que examinen fácilmente las indicaciones y conversaciones específicas necesarias para reproducir errores.
Si bien esto protege la privacidad del usuario, creó un diagnóstico significativo de un obstáculo.
La naturaleza superpuesta de los tres errores distintos, cada uno produce síntomas diferentes en diferentes plataformas, creó lo que la compañía se convirtió en una”mezcla de los informes de confunción a la”mezcla de conflictos a la que no funciona a los informes que no se apuntaron a los informes que no se apuntan a los informes que no se apuntaron a los informes.
Esto hizo que el problema pareciera de una degradación aleatoria e inconsistente en lugar de una serie de fallas concretas y relacionadas.
En respuesta, la compañía ha implementado una serie de soluciones específicas y está revisando su estrategia de prevención. Los ingenieros han corregido la lógica de enrutamiento defectuosa, retrocedieron el código que causó la corrupción de salida y ha cambiado del método de muestreo”aproximado”de errores a una operación más robusta de”top-k”más sólida.
En este último punto, el equipo de Anthrope anotó,”la calidad del modelo no es negativa, por lo que aceptamos el impacto de la eficiencia menor”. para diferenciar mejor entre modelos trabajadores y rotos. De manera crucial, estas verificaciones de calidad ahora se ejecutarán continuamente en sus sistemas de producción en vivo para captar errores en tiempo real.
La compañía también está desarrollando nuevas herramientas para ayudar a depurar los problemas informados por el usuario más rápidamente sin comprometer sus estrictos estándares de privacidad de los usuarios.
reconstruir la confianza es más que solo errores
el incidente de los inyectores de la calidad de los inyectores de los inyumadores de los inyectores de los inyectores de los inyectores de los inyectores. carrera armamentista de AI hipercompetitiva. Para antrópico, las apuestas son particularmente altas, ya que empuja más allá de los modelos fundamentales a la plataforma como una capa de servicio (PAAS), compitiendo más directamente con los proveedores de servicios de nubes y software.
Como analista Holger Mueller de investigación de constelación observada,”Los proveedores de LLM están trabajando en la capa de PAAS. in releases like the agentic Claude 4 models and developer-focused tools like sub-agents, makes platform reliability a non-negotiable feature.
The vision, as articulated by CEO Dario Amodei, involves a future where “we’re heading to a world where a human developer can manage a fleet of agents, but I think continued human involvement is going to be important for the quality control…”
This philosophy of Las flotas de IA administradas por humanos se están convirtiendo en una realidad, pero depende completamente de la estabilidad de las herramientas subyacentes.
La reacción de la comunidad al postmortem se ha mezclado. Mientras que muchos desarrolladores en foros como Reddit elogió la compañía por su transparencia inusual , otros siguen siendo escépticos. La reconstrucción de la confianza de una base de usuarios profesionales requerirá una estabilidad sostenida.
En última instancia, la explicación detallada de Anthrope es un paso crucial. Reconoce la experiencia frustrante del usuario y proporciona una narrativa técnica creíble para las fallas. La compañía está apostando a que este nivel de transparencia, combinado con sus mejoras planificadas, será suficiente para restaurar la confianza en la plataforma Claude.