In reactie op de lancering van Google’s Gemini 3 Pro, met de nadruk op uithoudingsvermogen boven onbewerkte grootte, heeft OpenAI woensdag GPT-5.1-Codex-Max uitgebracht.

Het nieuwe model introduceert’compaction’en maakt gebruik van een techniek waarmee het geheugen kan worden gecondenseerd en autonome codeersessies langer dan 24 uur kunnen worden volgehouden. OpenAI doorbreekt de ‘geheugenmuur’ die doorgaans taken met een lange horizon tegenhoudt, en claimt dat het model het tokengebruik met 30% vermindert, terwijl het een topscore van 77,9% op de SWE-bench Verified benchmark behaalt.

Deze update wordt onmiddellijk uitgerold naar Codex-gebruikers en signaleert een strategische verschuiving naar efficiëntie en Windows-native ondersteuning. Het volgt nauw op de hielen van de GPT-5.1-release, die het platform probeerde te stabiliseren na een wankel aanvankelijk GPT-5-debuut.

De Endurance Engine: verdichting en 24-uurs autonomie

Onder de motorkap vertrouwt de architectuur op een nieuwe benadering van contextbeheer die fundamenteel verschilt van de brute-force-methode om eenvoudigweg het contextvenster uit te breiden.

Concurrenten zoals Google dringen aan op een capaciteit van miljoenen tokens om volledige codebases in het actieve geheugen op te slaan, maar OpenAI heeft’compaction’geïntroduceerd.

Werkt op dezelfde manier als Dit mechanisme, dat een zeer intelligente garbage collector is voor de aandachtsspanne van het model, vat zijn eigen geschiedenis actief samen en snoeit deze op in plaats van dat het contextvenster zich vult met irrelevant gespreksafval.

Door alleen de kritieke toestandsveranderingen en beslissingslogica te behouden, kan het systeem in meerdere contextvensters werken zonder de draad van het oorspronkelijke doel te verliezen.

Bij het beschrijven van de doorbraak merkte het OpenAI-engineeringteam op dat “GPT-5.1-Codex-Max is gebouwd voor langdurig, gedetailleerd werk. Het is ons eerste model dat van nature is getraind om in meerdere contextvensters te werken via een proces dat compactie wordt genoemd. Dit benadrukt het vermogen om de samenhang te behouden waar eerdere iteraties zouden hallucineren of herhalen.

Door het probleem van de’luie agent’rechtstreeks aan te pakken, voorkomt deze architectonische verschuiving dat de prestaties van modellen afnemen naarmate de gespreksduur toeneemt.

Interne evaluaties die door het bedrijf worden aangehaald, suggereren een dramatische toename van het uithoudingsvermogen:’In onze interne evaluaties hebben we waargenomen dat GPT-5.1-Codex-Max werkt meer dan 24 uur aan taken. Het zal de implementatie voortdurend herhalen, testfouten oplossen en uiteindelijk een succesvol resultaat opleveren.”

Bedrijfsontwikkelaars kunnen nu op vrijdagavond een complexe refactoring-taak toewijzen en verwachten dat de agent het hele weekend door blijft werken, iteratief tests uitvoert en zijn eigen fouten oplost totdat de build slaagt.

Dit uithoudingsvermogen gaat gepaard met efficiëntieverbeteringen. Het niet voortdurend opnieuw verwerken van de volledige, ongecomprimeerde geschiedenis van een lange sessie betekent dat het model aanzienlijk minder bronnen verbruikt.

Op de SWE-bench Verified benchmark merkt het bedrijf op dat”GPT-5.1-Codex-Max met’gemiddelde’redeneerinspanning betere prestaties behaalt dan GPT-5.1-Codex… terwijl er 30% minder denktokens worden gebruikt.”

API-gebruikers met hoog volume zullen een vermindering van 30% zien in het tokenverbruik Dit vertaalt zich direct in lagere operationele kosten, een cruciale factor nu AI overgaat van experimentele prototyping naar productieworkflows.

Snelheidsverbeteringen zijn eveneens meetbaar. Real-world codeertaken worden nu tussen de 27% en 42% sneller uitgevoerd dan met het vorige GPT-5.1-Codex-model.

 
Deze versnelling lost een veelgehoorde klacht over redeneermodellen op en vermindert de’denktijd’die nodig is voordat code wordt geproduceerd. Door de redeneringstokens te optimaliseren, kan OpenAI de diepgang van het denken die nodig is voor complexe logica in evenwicht brengen met het reactievermogen dat nodig is voor interactieve ontwikkeling.

Prestatiestatistieken valideren deze architecturale veranderingen. Met een score van 77,9% op SWE-bench Verified overtreft het model de 73,7% van zijn voorganger en vestigt het een nieuw intern record.

Op de SWE-Lancer IC SWE-benchmark, die taken van individuele bijdragers simuleert, bereikte het 79,9%, wat erop wijst dat het de meerderheid van de routinetickets kan verwerken die zijn toegewezen aan junior engineers.

Bovendien duidt een score van 58,1% op TerminalBench 2.0 aan een robuust vermogen om door opdrachtregelinterfaces te navigeren, een notoir moeilijk gebied voor LLM’s vanwege de meedogenloze aard van syntaxisfouten in terminalomgevingen.

De ecosysteemoorlog: Windows Focus en Gemini Rivalry

De timing is zelden toevallig in de AI-sector. Deze release komt precies 24 uur nadat Google Gemini 3 Pro heeft onthuld en zorgt voor een onmiddellijke onderlinge vergelijking.

De strijd om de benchmark is nu flinterdun. Codex-Max’s 77,9% op SWE-bench Verified ligt nipt in de buurt van de 76,2% gerapporteerd voor Gemini 3 Pro, waardoor Google’s claim op de coderingskroon effectief wordt geneutraliseerd, minder dan een dag nadat deze werd gemaakt.

Naast de benchmarks speelt OpenAI een berekend spel voor de zakelijke markt door te breken met de op Unix gerichte traditie van de industrie.

OpenAI wees erop dat”het ook het eerste model is”we zijn getraind om effectief te werken in Windows-omgevingen, met trainingstaken die het een betere samenwerking maken in de Codex CLI.”

Historisch gezien zijn AI-coderingsmodellen voornamelijk getraind op Linux-en macOS-repository’s, wat tot wrijving leidde bij het genereren van PowerShell-scripts of het navigeren door het Windows-bestandssysteem. Expliciet training voor Windows brengt OpenAI nauwer in lijn met de enorme bedrijfsinstallatiebasis van zijn belangrijkste partner, Microsoft.

Prijzen blijven het meest controversiële front in dit conflict. Google lanceerde Gemini 3 Pro met een agressieve prijsstrategie van ongeveer $0,10 per miljoen inputtokens.

Daarentegen ligt de GPT-5.1-basislijn aanzienlijk hoger, rond de $1,25 per miljoen tokens. Hoewel OpenAI beweert dat het “Max”-model goedkoper is in gebruik vanwege de token-efficiëntie, is het ruwe verschil in kosten per eenheid meer dan 10x.

Een dergelijke kloof legt een enorme druk op OpenAI om te bewijzen dat zijn “compactie”-en redeneringsmogelijkheden superieure waarde per dollar opleveren, in plaats van alleen maar superieure prestaties per token.

De beschikbaarheid is onmiddellijk voor gebruikers binnen het OpenAI-ecosysteem. Live in de Codex CLI, IDE-extensies en cloudomgevingen voor Plus-, Pro-en Enterprise-abonnees is het model klaar voor implementatie.

API-toegang wordt momenteel echter vermeld als’binnenkort beschikbaar’. Deze vertraging creëert een tijdelijke barrière voor ontwikkelaars die aangepaste tools of applicaties van derden bouwen en dwingt hen voorlopig binnen de first-party interfaces van OpenAI te blijven.

Het veranderen van het verhaal rond deze tools is ook een prioriteit. Denis Shiryaev van JetBrains noemde het nieuwe model’echt agentisch, het meest natuurlijk autonome model dat ik ooit heb getest’, wat een verschuiving weerspiegelt van’copiloten’die fragmenten suggereren naar’agenten’die workflows beheren.

Cruciaal is dat een copiloot je helpt sneller te typen; met een agent kun je helemaal stoppen met typen.

Het veiligheidsplafond: biologische risico’s en gegevensbescherming

Een grotere autonomie brengt een groter risico met zich mee. De Systeemkaart die samen met het model is uitgebracht, onthult een aanzienlijke escalatie in de veiligheidsclassificatie.

Voor de eerste keer in een op codering gerichte release bevestigde de Safety Advisory Group dat “we GPT-5.1-Codex-Max behandelen als een hoog risico in het biologische en chemische domein, en de overeenkomstige maatregelen blijven toepassen beveiligingsmaatregelen.”

GPT-5.1-Codex-Max systeemkaart

 
Deze classificatie komt voort uit het vermogen van het model om complexe natte laboratoriumprotocollen te plannen en problemen op te lossen en benadrukt een nieuw gevaar. Een agent die autonoom een ​​Python-script kan debuggen, kan in theorie ook een protocol voor het synthetiseren van een ziekteverwekker debuggen als hij toegang heeft tot de juiste literatuur en apparatuur.

Cyberbeveiliging blijft een ander gebied van intensief onderzoek. De Safety Advisory Group merkte op dat”GPT-5.1-Codex-Max het meest cyber-compatibele model is dat we tot nu toe hebben geïmplementeerd… [maar] het bereikt geen hoge capaciteiten op het gebied van cyberbeveiliging.”

Hoewel het nog niet de drempel heeft overschreden die een stopzetting van de implementatie zou veroorzaken, is de vaardigheid van het model in het identificeren van kwetsbaarheden en het schrijven van exploitscripts verbeterd.

Om dit te verzachten heeft OpenAI standaard strikte sandboxing geïmplementeerd. Netwerktoegang is uitgeschakeld tenzij expliciet verleend, en schrijfrechten voor bestanden zijn vergrendeld op de actieve werkruimte, waardoor wordt voorkomen dat de agent systeemmappen binnendringt.

Gegevensvernietiging is een uniek risico voor autonome codeeragenten. Terminaltoegang zou theoretisch een model in staat kunnen stellen een commando als `rm-rf/` uit te voeren en de machine van een gebruiker te wissen. Om dit tegen te gaan, gebruikte OpenAI een nieuwe trainingstechniek met een’gebruikersmodel’tijdens de Reinforcement Learning-fase.

Door een gebruiker te simuleren die wijzigingen aanbracht die in strijd waren met de doelstellingen van de AI, beloonde deze methode het model specifiek voor het behouden van het werk van de gebruiker in plaats van het te overschrijven, waardoor de AI effectief werd geleerd menselijke bijdragen te respecteren en destructieve commando’s te vermijden.

Prompte injectie-aanvallen, waarbij kwaadaardige instructies verborgen zijn in codecommentaren of externe documentatie, kregen ook specifieke aandacht. Er zijn nieuwe synthetische datasets gegenereerd om het model te trainen in het herkennen en negeren van deze aanvallen binnen een codeercontext.

Ondanks deze technische waarborgen blijft het bedrijf volhouden dat menselijk toezicht niet onderhandelbaar is. Het Preparedness Framework schrijft voor dat, hoewel de agent taken autonoom kan uitvoeren, de uiteindelijke output moet worden beoordeeld door een menselijke ingenieur, waardoor de dynamiek van de’virtuele teamgenoot’wordt versterkt in plaats van volledige vervanging.

Categories: IT Info