Après des semaines de plaintes et de spéculations sur les utilisateurs concernant une baisse des performances de ses IA, Anthropic a rompu son silence.

La société a publié un post-mortem technique détaillé révélant que trois bogues d’infrastructure distincts et qui se chevauchent ont été la cause de problèmes de qualité récents avec ses modèles Claude. “We never reduce model quality due to demand, time of day, or server load. The problems our users reported were due to infrastructure bugs alone.”

The direct address aims to quell widespread frustration from developers who rely on La plate-forme et avait commencé à perdre la confiance après des semaines de réponses dégradées et inconsentes . The announcement provides a rare, transparent look into the complex infrastructure required to serve large language models at scale.

A Summer of Frustration Culminates in an Explanation

The problems began subtly but escalated significantly. Le premier bogue, une «erreur de routage de fenêtre de contexte», a été introduit le 5 août, affectant initialement un seul 0,8% des demandes de Sonnet 4, selon le

Ce problème mineur a été considérablement amplifié par un changement d’équilibrage de charge le 29 août. À son apogée, l’erreur a eu un impact sur 16% des demandes de Sonnet 4. Le problème a été aggravé par un «routage collant», qui a verrouillé les utilisateurs affectés dans des séances avec les serveurs défectueux, ce qui rend les mauvaises performances persistantes.

Cela a suivi une controverse distincte en juillet, lorsque l’anthropique a fait face à une référence importante pour l’imposition de limites d’utilisation restrictive de son service de code Claude, puis de plusieurs utilisateurs. Remettre en question la fiabilité de la plate-forme.

Sous le capot: une cascade de trois bugs qui se chevauchent

L’enquête d’Anthropic a révélé une tempête parfaite de défaillances techniques. Le 25 août, deux autres bogues ont été déployés.

L’un était un problème de”corruption de sortie”sur les serveurs TPU de l’entreprise, qui ont fait en sorte que le modèle injecte occasionnellement des caractères aléatoires et hors conte href=”https://cloud.google.com/tpu/docs/intro-to-tpu”Target=”_ Blank”> xla: Compiler tpu . Une réécriture de code destinée à améliorer la précision de l’échantillonnage de jetons a déclenché par inadvertance cette faille.

Il a provoqué l’opération”approximative de K Top-K”-une optimisation des performances-pour parfois renvoyer des résultats incorrects, impactant directement la qualité de sélection des jetons. Pinpoint une seule cause racine.

L’expérience pour beaucoup était simplement qu’un outil de changement de jeu était devenu peu fiable.

Pourquoi la détection était difficile et comment anthropic le répare

anthropic a admis ses processus de validation standard, qui relevaient les benchmarks et les évaluations de sécurité, ont échoué à prendre la département. Dans son post-mortem, la société a expliqué que ces «problèmes exposaient des lacunes critiques». Les évaluations n’ont tout simplement pas capturé les défaillances spécifiques que les utilisateurs signalaient.

Un défi clé découle de la propre résilience du modèle. Claude récupère souvent bien des erreurs isolées, qui ont effectivement masqué la dérive systémique causée par les bogues sous-jacents.

Cela a créé un signal déroutant, où l’IA semblait se produire normalement dans les métriques agrégées, alors que les expériences individuelles des utilisateurs souffraient. Ces mesures de sécurité limitent l’accès des ingénieurs aux interactions des utilisateurs, en les empêchant d’examiner facilement les invites et conversations spécifiques nécessaires pour reproduire des bogues.

Bien que cela protège la confidentialité des utilisateurs, il a créé un obstacle de diagnostic significatif.

La nature qui se chevauche des trois bogues distincts, chacun produisant des symptômes sur différentes plates-formes, a créé ce que l’entreprise a appelé une «confusion de confis qui a fait des rapports qui ont souligné une cause.

Cela a fait ressembler le problème à une dégradation aléatoire et incohérente plutôt qu’à une série de défaillances liées en béton.

En réponse, la société a déployé une série de correctifs ciblés et révise sa stratégie de prévention. Les ingénieurs ont corrigé la logique de routage défectueuse, renvoyé le code qui a provoqué la corruption des sorties et est passé de la méthode d’échantillonnage «approximative» de buggy à une opération plus robuste «Top-K». La qualité de la «qualité du modèle est non négociable, donc nous avons accepté l’impact plus sensé. Évaluations conçues pour mieux faire la différence entre les modèles de travail et les modèles cassés. Surtout, ces vérifications de qualité fonctionneront désormais en continu sur ses systèmes de production en direct pour capter des erreurs en temps réel.

La société développe également de nouveaux outils pour aider à déboguer les problèmes déclarés par les utilisateurs sans compromettre ses standards de confidentialité stricts. Course d’armes AI hyper-compétitive. Pour pour les enjeux, les enjeux sont particulièrement élevés car il pousse au-delà des modèles fondamentaux dans la plate-forme en tant que couche de service (PaaS), en concurrence plus directement avec les fournisseurs de services cloud et logiciels.

En tant que analyste Holger Mueller de la recherche de constellation observée, «LLM Les vendeurs travaillent dans la pile dans la couche PaaS. Dans des versions comme les modèles Agent Claude 4 et les outils axés sur les développeurs comme les sous-agents, fait de la fiabilité de la plate-forme une fonctionnalité non négociable.

La vision, comme l’affirme le PDG Dario Amodei, implique un avenir où «nous nous dirigeons vers un monde qui est important pour un développeur humain pour le contrôle de la qualité…« P * Les flottes d’IA gérées par l’homme deviennent une réalité, mais elle dépend entièrement de la stabilité des outils sous-jacents.

La réaction de la communauté au post-mortem a été mitigée. Alors que de nombreux développeurs sur des forums comme reddit ont prévenu la société pour sa transparence inhabituelle ,, d’autres restent sautés. La reconstruction de la confiance d’une base d’utilisateurs professionnels nécessitera une stabilité soutenue.

En fin de compte, l’explication détaillée d’Anthropic est une étape cruciale. Il reconnaît l’expérience frustrante de l’utilisateur et fournit un récit technique crédible pour les échecs. La société parie que ce niveau de transparence, combiné à ses améliorations prévues, sera suffisante pour restaurer la confiance dans la plate-forme Claude.

Categories: IT Info