En ny studie utmanar AI-branschens “större är bättre” tillvägagångssätt för kontextfönster. Chroma Research, ett företag som utvecklar AI Vector-databaser, publicerade sina “Context Rot”-rapport I juli 2025. Sann semantisk förståelse när det är överbelastat med information, inte bara enkel datainhämtning. Dessa resultat ifrågasätter loppet mot flera miljoner tokenfönster från företag som Google och MiniMax, som erbjuder ett rekordbrytande 4M-token-sammanhangsfönster.

Studien tyder på att effektiv”kontexteknik”-den noggranna kurationen av inmatningsdata-är mer kritisk för att uppnå tillförlitliga AI-resultat än att helt enkelt ge mer rå information. Författarna säger,”Vi visar att även under dessa minimala förhållanden försämras modellprestanda när ingångslängden ökar, ofta på överraskande och ojämnt sätt,”belyser problemets nyanserade natur.

>

The ‘Context Rot’ Findings

Chroma’s research moves beyond the standard Needle in a Haystack (NIAH) tests, som bara mäter modellens förmåga att hitta en exakt textbit. Istället testade det 18 ledande modeller för deras förmåga att göra slutsatser från semantiskt relaterade, men inte identiska, information.

till exempel, en modell kan frågas”Vilken karaktär har varit till Helsingfors?”När källtexten bara säger att”Yuki bor bredvid Kiasma-museet.”Att besvara korrekt kräver att modellen drar slutsatsen med hjälp av världskunskap, en mycket svårare uppgift än enkel sökordsmatchning.

Prestanda sjönk kraftigt på dessa semantiska tester. Problemet förvärrades genom att lägga till”distraherare”-Topiskt relaterade men felaktiga uttalanden. Studien noterade att GPT-modeller tenderade att hallucinera fel svar, medan Claude-modeller ofta vägrade att svara när de mötte en sådan tvetydighet.

I en överraskande twist fann studien att modeller presterade bättre när texten var ett virvar av slumpmässigt blandade meningar. Prestanda var värre när texten var logiskt strukturerad och sammanhängande. Detta antyder att strukturen för ingången, inte bara dess innehåll, påverkar modelluppmärksamheten.

Teamet testade också prestanda på longmemeval Benchmark , som använder långa chatthistorier. Modeller presterade konsekvent sämre när de fick hela konversationshistoriken jämfört med när de endast gavs de mest relevanta utdragen, vilket ytterligare bevisar”kontextrot”-effekten.

ett branschövergripande problem

kromas resultat är inte en outlier. De anpassar sig till en växande mängd forskning från andra stora laboratorier som har identifierat liknande begränsningar i behandling med lång kontext. Detta indikerar ett systemiskt problem med den nuvarande generationen av LLMS.

I maj 2025 förklarade Nikolay Savinov på Google DeepMind att trimmande irrelevant innehåll alltid är fördelaktigt för modellnoggrannhet. Han hävdade att den hjälper modellen att koncentrera sin begränsade uppmärksamhet på vad som är viktigast för uppgiften.

[inbäddat innehåll]

På liknande sätt, en gemensam studie från LMU Munich och Adobe Research med nolima

Microsoft och Salesforce rapporterade en Dramatisk nedgång i pålitlighet under längre samtal . I sina tester av multi-svängningsdialoger sjönk noggrannheten från en höjd av 90 procent ner till bara 51 procent när användarkraven stavades över många steg.

till och med modeller med massiva teoretiska sammanhangsfönster, som Metas Llama 4 Maverick, kämpar i praktiken. Trots en teknisk kapacitet på tio miljoner tokens har det visat Poor Action Accpacy on BenchmArkss Reflrechit Reflrechit Reflrechnell Long-conte-conte scenar, Justext

Pivot till Context Engineering

De konsekventa resultaten över branschen understryker ett kritiskt meddelande: Att helt enkelt utöka sammanhangsfönstret är inte en silverkula för att förbättra AI-resonemanget. Hur information väljs, struktureras och presenteras för modellen är avgörande för tillförlitlig prestanda.

Detta har lett till en växande tonvikt på”kontexteknik.”Detta är en avsiktlig strategi som involverar förbehandling av information för att ge LLM endast de mest relevanta data med hög signal, strukturerad för optimal förståelse. Det står i skarp kontrast till den brute-kraftmetoden för att bara öka sammanhangsfönstret.

Kroma forskarna avslutar sin rapport genom att lyfta fram denna förändring.”Våra resultat belyser behovet av en strängare utvärdering av lång kontext utöver nuvarande riktmärken, liksom vikten av kontexteknik,”skrev de och pekade mot ett nytt fokusområde för utvecklare som vill bygga pålitliga AI-applikationer.

Den fullständiga”Context Rot”tekniska rapporten och en verktygssats för utvecklare för att replikera studiens resultat är nu offentligt tillgängligt på Chroma Research-webbplatsen och på github .

Categories: IT Info