Etter uker med brukerklager og spekulasjoner om en nedgang i AIs ytelse, har antropic brutt stillheten.
Selskapet publiserte et detaljert teknisk postmortem som avslørte at tre forskjellige og overlappende infrastrukturer var årsaken til det siste kvalitetsproblemet med dens klaude-modeller.
the ai firma firma firma nei.”Vi reduserer aldri modellkvalitet på grunn av etterspørsel, tid på døgnet eller serverbelastning. Problemene som brukerne rapporterte skyldtes infrastrukturfeil alene.”
prips rired på plattformen og hadde begynt å Miste tillit etter å ha opplevd uker på Degreed og incons og incons”_ blank”> taper Tillit etter å ha opplevd uker av Degaded og Incons”Target=”Kunngjøringen gir et sjeldent, gjennomsiktig blikk på den komplekse infrastrukturen som kreves for å tjene store språkmodeller i skala.
En sommer med frustrasjon kulminerer i en forklaring
problemene begynte subtilt, men eskalerte betydelig. Den første feilen, en”Context Window Routing-feil”, ble introdusert 5. august, og opprinnelig påvirket bare 0,8% av Sonnet 4-forespørsler, ifølge
Dette mindre problemet ble dramatisk forsterket ved en lastbalanseringsendring 29. august. På toppen påvirket feilen 16% av Sonnet 4-forespørsler. Problemet ble forsterket av”Sticky Routing”, som låst påvirket brukere i økter med de defekte serverne, noe Plattformens pålitelighet. Antropics undersøkelse avdekket en perfekt storm av tekniske feil. Den 25. august ble ytterligere to feil distribuert. En var et”output corruption”-utgave på selskapets TPU-servere, noe som fikk modellen til å av og til injisere tilfeldige, uten kontakt-tegn, for eksempel thailandske skript, til engelske svar. den tredje og mest komplekse utgaven var en latent feil i xla: tpu compiler . En omskriving av koder som er ment å forbedre presisjonen i tokenprøvetaking utilsiktet utløste denne feilen. Det forårsaket den”omtrentlige Top-K”-operasjonen-en ytelsesoptimalisering-for å noen ganger returnere feil resultater, direkte påvirkning av symptomer. /
Denne tekniske kascaden skapte en forvirrende blanding av symptomer. Konpunkt en enkelt årsak. opplevelsen for mange var ganske enkelt at et en gang spillendrende verktøy var blitt upålitelig. antropisk innrømmet sin standard validering. I sitt postmortem forklarte selskapet at disse”problemene utsatte kritiske hull.”Evalueringene fanget rett og slett ikke de spesifikke feilene brukerne rapporterte. En viktig utfordring stammet fra modellens egen motstandskraft. Claude gjenoppretter ofte godt fra isolerte feil, som effektivt maskerte den systemiske driften forårsaket av de underliggende feilene. Dette skapte et forvirrende signal, der AI så ut til å utføre normalt i samlede kontroll, selv som individuelle brukeropplevelser som ble lidd. furre-Privacy, undersøkelsen. Disse sikkerhetstiltakene begrenser ingeniørenes tilgang til brukerinteraksjoner, og forhindrer dem i å enkelt undersøke de spesifikke spørsmålene og samtalene som er nødvendige for å reprodusere feil. Mens dette beskytter brukerens personvern, skapte det et betydelig diagnostisk hinder. den overlappende naturen til de tre distinkte feilene, som ikke produserte forskjellige symptomer på forskjellige plattformer. Dette fikk problemet til å se ut som tilfeldig, inkonsekvent nedbrytning snarere enn en serie konkrete, relaterte feil. Som svar har selskapet rullet ut en serie målrettede fikser og overhaling av forebyggingsstrategien. Ingeniører har korrigert den defekte rutinglogikken, rullet tilbake koden som forårsaket produksjonskorrupsjon og byttet fra buggy”omtrentlig”prøvetakingsmetode til en mer robust”nøyaktig topp-k”-operasjon. På dette siste punktet, antrapics team noterte,”Model Quality er POPPITY, så aksepterte vi som ikke er implementert. Evalueringer designet for å bedre skille mellom arbeidende og ødelagte modeller. Avgjørende vil disse kvalitetskontrollene nå kjøre kontinuerlig på sine live-produksjonssystemer for å fange feil i sanntid. Selskapet utvikler også nytt verktøy for å hjelpe deg med I det hyperkonkurransedyktige AI-våpenløpet. For Anthropic er innsatsen spesielt høy når den skyver utover grunnleggende modeller inn på plattformen som et tjeneste (PAAS)-lag, og konkurrerer mer direkte med sky-og programvaretjenesteleverandører. Som analytikeren Holger Mueller av Constellation Research observerte,”LIG, EV/VINR/THRTAUR STRUPPION, EV/THRTAUR STRUPPIC, EV/PRAGH TREGRENDIC. I utgivelser som Agentic Claude 4-modeller og utviklerfokuserte verktøy som underagenter, gjør plattform påliteligheten til en ikke-omsettelig funksjon. Visjonen, som artikulert av administrerende direktør Filosofi om menneskestyrte AI-flåter blir en realitet, men den henger helt sammen på stabiliteten til de underliggende verktøyene. Fellesskapets reaksjon på postmortem har blitt blandet. Mens mange utviklere på fora som Reddit rost. Å gjenoppbygge tilliten til en profesjonell brukerbase vil kreve vedvarende stabilitet. Til slutt er Anthropics detaljerte forklaring et avgjørende trinn. Den erkjenner brukerens frustrerende opplevelse og gir en troverdig, teknisk fortelling for feilene. Selskapet satser på at dette nivået av åpenhet, kombinert med planlagte forbedringer, vil være nok til å gjenopprette tilliten til Claude-plattformen. under panseret: En kaskade av tre overlappende feil
Hvorfor deteksjon var vanskelig og hvordan antropisk fikser den