Een nieuwe studie daagt de”grotere”benadering van de AI-industrie uit, benadering van contextvensters. Chroma Research, een bedrijf dat AI Vector-databases ontwikkelt, publiceerde zijn “context rot”rapport In juli 2025 onthult het onderzoek naar de taak. Semantisch begrip wanneer overbelast met informatie, niet alleen eenvoudig ophalen van gegevens. Deze bevindingen betwijfelen de race naar multi-miljoen tokenvensters van bedrijven zoals Google en Minimax, die een recordbreekbaar maken van 4m token contextvenster.

De studie suggereert dat effectieve”contexttechniek”-de zorgvuldige samenwerking van invoergegevens-kritischer is voor het bereiken van betrouwbare AI-resultaten dan eenvoudigweg meer ruwe informatie te bieden. De auteurs stellen:”We tonen aan dat zelfs onder deze minimale omstandigheden de modelprestaties afnemen naarmate de inputlengte toeneemt, vaak op verrassende en niet-uniforme manieren”, waarbij de genuanceerde aard van het probleem wordt benadrukt.

De bevindingen van de ‘contextrot’

Het onderzoek van Chroma gaat verder dan de standaard _ wiKK (niaH) Tests , Meet alleen het vermogen van een model om een exact stuk tekst te vinden. In plaats daarvan testte het 18 toonaangevende modellen op hun vermogen om conclusies te trekken van semantisch gerelateerd, maar niet identiek, informatie.

bijvoorbeeld, kan een model worden gevraagd:”Welk personage is naar Helsinki geweest?”Wanneer de brontekst alleen vermeldt dat”Yuki naast het Kiasma Museum woont.”Het correct antwoorden vereist dat het model een verbinding afleidt met behulp van wereldkennis, een veel moeilijkere taak dan eenvoudige trefwoordaanpassing.

De prestaties daalden sterk op deze semantische tests. Het probleem werd verergerd door”afleiders”toe te voegen-topisch gerelateerde maar onjuiste uitspraken. De studie merkte op dat GPT-modellen de neiging hadden om verkeerde antwoorden te hallucineren, terwijl Claude-modellen vaak weigerden te antwoorden wanneer ze met een dergelijke dubbelzinnigheid werden geconfronteerd.

In een verrassende wending ontdekte de studie dat modellen beter presteerden wanneer de tekst een wormje was van willekeurig geschud zinnen. De prestaties waren erger toen de tekst logisch gestructureerd en coherent was. Dit suggereert dat de structuur van de input, niet alleen de inhoud ervan, de aandacht van het model beïnvloedt.

Het team heeft ook de prestaties getest op de longmemeval benchmark , die lange chathistories gebruikt. Modellen presteerden consequent slechter toen ze de volledige gespreksgeschiedenis kregen in vergelijking met wanneer ze alleen de meest relevante fragmenten kregen, wat het”contextrot”-effect verder bewees.

Een industrie-breed probleem

Chroma’s bevindingen zijn geen uitbijt. Ze komen overeen met een groeiend aantal onderzoek van andere grote laboratoria die vergelijkbare beperkingen hebben geïdentificeerd bij lang-contextverwerking. Dit duidt op een systemisch probleem met de huidige generatie LLMS.

In mei 2025 legde Nikolay Savinov bij Google DeepMind uit dat het bijsnijden van irrelevante inhoud altijd gunstig is voor modelnauwkeurigheid. Hij betoogde dat het het model helpt zijn beperkte aandacht te concentreren op wat het belangrijkste is voor de taak die moet worden uitgevoerd.

[ingesloten inhoud]

Op dezelfde manier, een gezamenlijk onderzoek van LMU München en Adobe-onderzoek met de

Microsoft en Salesforce rapporteerden een Dramatische daling van de betrouwbaarheid tijdens langere gesprekken . In hun tests van multi-turn dialogen daalde de nauwkeurigheid van een hoogtepunt van 90 procent tot slechts 51 procent, omdat gebruikersvereisten werden gespeld over vele stappen.

Zelfs modellen met massieve theoretische contextvensters, zoals meta’s LLAMA 4 Maverick, worstelen in de praktijk. Ondanks een technische capaciteit van tien miljoen tokens, heeft het Slechte Accurracy on Benchmarks Designed to Beeft Real-World Long-Context Scenarios , Scoring Just 28.1% Op een dergelijke test.

De pivot naar contexttechniek

De consistente bevindingen in de industrie onderstrepen een kritisch bericht: het eenvoudig uitbreiden van het contextvenster is geen zilveren kogel voor het verbeteren van de redenering van AI. De manier waarop informatie wordt geselecteerd, gestructureerd en aan het model wordt gepresenteerd, is van het grootste belang voor betrouwbare prestaties.

Dit heeft geleid tot een groeiende nadruk op’contexttechniek’. Dit is een opzettelijke strategie waarbij informatie wordt gewerkt om de LLM alleen de meest relevante, hoge signaalgegevens te bieden, gestructureerd voor optimaal begrip. Het staat in schril contrast met de brute-force-methode om alleen het contextvenster te vergroten.

De Chroma-onderzoekers concluderen hun rapport door deze verschuiving te benadrukken.”Onze resultaten benadrukken de noodzaak van meer rigoureuze evaluatie met lange context die verder gaat dan de huidige benchmarks, evenals het belang van contexttechniek,”schreven ze, wijzend op een nieuw gebied van focus voor ontwikkelaars die betrouwbare AI-toepassingen willen bouwen.

Het volledige”contextrot”technisch rapport en een toolkit voor ontwikkelaars om de resultaten van de studie te repliceren, zijn nu publiekelijk beschikbaar op de Chroma Research-website en op GitHub .

Categories: IT Info