OpenAI hat am Mittwoch GPT-5.1-Codex-Max veröffentlicht, um Googles Einführung von Gemini 3 Pro mit einem Schwerpunkt auf Ausdauer statt Rohgröße entgegenzuwirken.

Mit der Einführung der „Komprimierung“ nutzt das neue Modell eine Technik, die es ermöglicht, den Speicher zu verdichten und autonome Codierungssitzungen für mehr als 24 Stunden aufrechtzuerhalten. OpenAI durchbricht die „Speichermauer“, die normalerweise Langzeitaufgaben blockiert, und behauptet, dass das Modell die Token-Nutzung um 30 % reduziert und gleichzeitig einen Spitzenwert von 77,9 % im SWE-Bench-Verified-Benchmark sichert.

Dieses Update, das sofort für Codex-Benutzer eingeführt wird, signalisiert einen strategischen Wandel hin zu Effizienz und Windows-nativer Unterstützung. Es folgt dicht auf die Veröffentlichung von GPT-5.1, die darauf abzielte, die Plattform nach einem holprigen ersten GPT-5-Debüt zu stabilisieren.

Die Endurance Engine: Komprimierung und 24-Stunden-Autonomie

Unter der Haube basiert die Architektur auf einem neuartigen Ansatz zur Kontextverwaltung, der sich grundlegend von der Brute-Force-Methode der einfachen Erweiterung des Kontextfensters unterscheidet.

Konkurrenten wie Google drängen auf Millionen-Token-Kapazitäten, um ganze Codebasen im aktiven Speicher zu halten, aber OpenAI hat „Komprimierung“ eingeführt.

Funktioniert ähnlich An einen hochintelligenten Garbage Collector für die Aufmerksamkeitsspanne des Modells fasst dieser Mechanismus aktiv seinen eigenen Verlauf zusammen und bereinigt ihn, anstatt zuzulassen, dass sich das Kontextfenster mit irrelevanten Gesprächsrückständen füllt.

Durch die Beibehaltung nur der kritischen Zustandsänderungen und der Entscheidungslogik kann das System über mehrere Kontextfenster hinweg arbeiten, ohne den Thread des ursprünglichen Ziels zu verlieren.

Bei der Beschreibung des Durchbruchs bemerkte das OpenAI-Ingenieurteam: „GPT-5.1-Codex-Max ist für langfristige, Dies ist unser erstes Modell, das nativ darauf trainiert wurde, durch einen Prozess namens „Kompaktierung“ über mehrere Kontextfenster hinweg zu arbeiten. Dies unterstreicht seine Fähigkeit, die Kohärenz dort aufrechtzuerhalten, wo frühere Iterationen halluzinieren oder sich wiederholen würden.

Diese architektonische Änderung geht das Problem des „Lazy Agent“ direkt an und verhindert, dass die Leistung der Modelle mit zunehmender Konversationslänge abnimmt.

Vom Unternehmen zitierte interne Bewertungen deuten auf eine dramatische Steigerung der Ausdauer hin: „In unseren internen Bewertungen haben wir beobachtet GPT-5.1-Codex-Max arbeitet mehr als 24 Stunden lang an Aufgaben, iteriert kontinuierlich an der Implementierung, behebt Testfehler und liefert letztendlich ein erfolgreiches Ergebnis. Da der vollständige, unkomprimierte Verlauf einer langen Sitzung nicht ständig neu verarbeitet wird, verbraucht das Modell deutlich weniger Ressourcen.

Im SWE-Bench-Verified-Benchmark stellt das Unternehmen fest, dass „GPT‑5.1-Codex-Max mit ‚mittlerem‘ Argumentationsaufwand eine bessere Leistung erzielt als GPT‑5.1-Codex … und dabei 30 % weniger Denktokens verwendet.“

Benutzer mit hohem API-Volumen werden eine Reduzierung der Token um 30 % feststellen Der Verbrauch führt direkt zu niedrigeren Betriebskosten, ein entscheidender Faktor, da KI vom experimentellen Prototyping zu Produktionsabläufen übergeht.

Geschwindigkeitsverbesserungen sind gleichermaßen messbar. Reale Codierungsaufgaben werden jetzt zwischen 27 % und 42 % schneller ausgeführt als mit dem vorherigen GPT-5.1-Codex-Modell.

 
Diese Beschleunigung trägt einer häufigen Beschwerde über Argumentationsmodelle Rechnung und reduziert die „Denkzeit“, die vor der Codeerstellung erforderlich ist. Durch die Optimierung der Argumentationstokens kann OpenAI die für komplexe Logik erforderliche Denktiefe mit der für die interaktive Entwicklung erforderlichen Reaktionsfähigkeit in Einklang bringen.

Leistungsmetriken validieren diese Architekturänderungen. Mit einer Punktzahl von 77,9 % bei SWE-Bench Verified übertrifft das Modell die 73,7 % seines Vorgängers und stellt einen neuen internen Rekord auf.

Beim SWE-Lancer IC SWE-Benchmark, der die Aufgaben einzelner Mitwirkender simuliert, erreichte es 79,9 %, was darauf hindeutet, dass es die Mehrheit der Routinetickets bewältigen kann, die an Nachwuchsingenieure vergeben werden.

Außerdem eine Punktzahl von 58,1 % bei TerminalBench 2.0 weist auf eine robuste Fähigkeit zur Navigation in Befehlszeilenschnittstellen hin, ein bekanntermaßen schwieriger Bereich für LLMs, da Syntaxfehler in Terminalumgebungen unversöhnlich sind.

Der Ökosystemkrieg: Windows-Fokus und Zwillingsrivalität

Im KI-Sektor ist das Timing selten zufällig. Da diese Veröffentlichung genau 24 Stunden nach der Vorstellung von Gemini 3 Pro durch Google erscheint, entsteht sofort ein direkter Vergleich.

Der Benchmark-Kampf ist jetzt hauchdünn. Die 77,9 % von Codex-Max auf dem SWE-Benchmark Verified liegen knapp über den für Gemini 3 Pro gemeldeten 76,2 % und machen Googles Anspruch auf die Coding-Krone weniger als einen Tag nach seiner Einführung effektiv zunichte.

Über die Benchmarks hinaus macht OpenAI einen kalkulierten Versuch für den Unternehmensmarkt, indem es mit der Unix-zentrierten Tradition der Branche bricht.

OpenAI wies darauf hin, dass „es auch das erste Modell ist.“ Wir haben trainiert, effektiv in Windows-Umgebungen zu arbeiten, mit Schulungsaufgaben, die es zu einem besseren Mitarbeiter in der Codex-CLI machen. Durch die explizite Schulung für Windows wird OpenAI enger an die riesige Unternehmensinstallationsbasis seines Hauptpartners Microsoft angepasst.

Die Preisgestaltung bleibt der umstrittenste Punkt in diesem Konflikt. Google hat Gemini 3 Pro mit einer aggressiven Preisstrategie von etwa 0,10 US-Dollar pro Million Eingabe-Token eingeführt.

Im Gegensatz dazu liegt die GPT-5.1-Basislinie deutlich höher bei etwa 1,25 US-Dollar pro Million Token. Während OpenAI argumentiert, dass das „Max“-Modell aufgrund seiner Token-Effizienz kostengünstiger in der Ausführung ist, beträgt die Ungleichheit der Rohkosten pro Einheit mehr als das Zehnfache.

Eine solche Lücke setzt OpenAI unter enormen Druck, zu beweisen, dass seine „Kompaktierungs“-und Argumentationsfähigkeiten einen höheren Wert pro Dollar und nicht nur eine überlegene Leistung pro Token liefern.

Die Verfügbarkeit ist für Benutzer innerhalb des OpenAI-Ökosystems sofort verfügbar. Live in der Codex-CLI, IDE-Erweiterungen und Cloud-Umgebungen für Plus-, Pro-und Enterprise-Abonnenten ist das Modell bereit für die Bereitstellung.

Allerdings wird der API-Zugriff derzeit als „in Kürze verfügbar“ aufgeführt. Diese Verzögerung stellt eine vorübergehende Barriere für Entwickler dar, die benutzerdefinierte Tools oder Anwendungen von Drittanbietern erstellen, und zwingt sie dazu, vorerst bei den Erstanbieter-Schnittstellen von OpenAI zu bleiben.

Eine Änderung der Erzählung rund um diese Tools hat ebenfalls Priorität. Denis Shiryaev von JetBrains bezeichnete das neue Modell als „wirklich agentisch, das natürlichste autonome Modell, das ich je getestet habe“, was eine Abkehr von „Copiloten“, die Schnipsel vorschlagen, hin zu „Agenten“, die Arbeitsabläufe verwalten, widerspiegelt.

Entscheidend ist, dass ein Copilot Ihnen hilft, schneller zu tippen; Ein Agent ermöglicht es Ihnen, ganz mit dem Tippen aufzuhören.

Die Sicherheitsobergrenze: Biologische Risiken und Datenschutz

Erhöhte Autonomie bringt ein erhöhtes Risiko mit sich. Die zusammen mit dem Modell veröffentlichte Systemkarte zeigt eine deutliche Eskalation der Sicherheitsklassifizierung.

Zum ersten Mal in einer auf Codierung ausgerichteten Version bestätigte die Safety Advisory Group, dass „wir GPT-5.1-Codex-Max im biologischen und chemischen Bereich als hohes Risiko behandeln und weiterhin die entsprechenden Maßnahmen anwenden.“ Sicherheitsmaßnahmen.“

GPT-5.1-Codex-Max-Systemkarte

 
Aufgrund der Fähigkeit des Modells, komplexe Nasslaborprotokolle zu planen und Fehler zu beheben, weist diese Klassifizierung auf eine neue Gefahr hin. Ein Agent, der in der Lage ist, ein Python-Skript autonom zu debuggen, kann theoretisch auch ein Protokoll zur Synthese eines Krankheitserregers debuggen, wenn er Zugriff auf die richtige Literatur und Ausrüstung hat.

Cybersicherheit bleibt ein weiterer Bereich, der intensiv untersucht wird. Die Safety Advisory Group stellte fest, dass „GPT-5.1-Codex-Max das Cyber-fähigste Modell ist, das wir bisher eingesetzt haben … [aber] es erreicht nicht die hohe Cybersicherheitsleistung.“

Obwohl es den Schwellenwert, der einen Bereitstellungsstopp auslösen würde, noch nicht überschritten hat, hat sich die Kompetenz des Modells bei der Identifizierung von Schwachstellen und dem Schreiben von Exploit-Skripten verbessert.

Um dies abzumildern, hat OpenAI standardmäßig striktes Sandboxing implementiert. Der Netzwerkzugriff ist deaktiviert, sofern er nicht ausdrücklich gewährt wird, und Dateischreibberechtigungen sind auf den aktiven Arbeitsbereich beschränkt, wodurch verhindert wird, dass der Agent in Systemverzeichnisse wandert.

Datenvernichtung ist ein besonderes Risiko für autonome Coding-Agenten. Der Terminalzugriff könnte es einem Modell theoretisch ermöglichen, einen Befehl wie „rm-rf/“ auszuführen und den Computer eines Benutzers zu löschen. Um dem entgegenzuwirken, verwendete OpenAI während der Reinforcement-Learning-Phase eine neuartige Trainingstechnik mit einem „Benutzermodell“.

Bei dieser Methode wurde ein Benutzer simuliert, der Änderungen vornahm, die im Widerspruch zu den Zielen der KI standen. Dabei wurde das Modell speziell dafür belohnt, dass die Arbeit des Benutzers erhalten blieb, anstatt sie zu überschreiben. Dadurch wurde der KI effektiv beigebracht, menschliche Beiträge zu respektieren und zerstörerische Befehle zu vermeiden.

Prompt-Injection-Angriffe, bei denen bösartige Anweisungen in Codekommentaren oder externer Dokumentation versteckt sind, erhielten ebenfalls besondere Aufmerksamkeit. Es wurden neue synthetische Datensätze generiert, um das Modell darauf zu trainieren, diese Angriffe in einem Codierungskontext zu erkennen und zu ignorieren.

Trotz dieser technischen Sicherheitsvorkehrungen bleibt das Unternehmen bestehen, dass die menschliche Aufsicht nicht verhandelbar ist. Das Preparedness Framework schreibt vor, dass der Agent zwar Aufgaben autonom ausführen kann, die endgültige Ausgabe jedoch von einem menschlichen Ingenieur überprüft werden muss, wodurch die Dynamik des „virtuellen Teamkollegen“ verstärkt und nicht vollständig ersetzt wird.

Categories: IT Info