A Google Gemini 3 Pro piacra dobása ellensúlyozva, a nyers méretnél nagyobb tartósságra összpontosítva, az OpenAI szerdán kiadta a GPT-5.1-Codex-Max-ot.
A „tömörítés” bevezetésével az új modell olyan technikát alkalmaz, amely lehetővé teszi a memória tömörítését és az autonóm kódolási munkamenetek több mint 24 órán keresztüli fenntartását. A hosszú távú feladatokat jellemzően megakasztó „memóriafalat” áttörve, az OpenAI azt állítja, hogy a modell 30%-kal csökkenti a tokenhasználatot, miközben 77,9%-os csúcspontot biztosít az SWE-bench Verified benchmarkon.
A Codex felhasználók számára azonnali megjelenéssel ez a frissítés stratégiai elmozdulást jelez a támogatási hatékonyság és a Windows rendszer felé. Szorosan követi a GPT-5.1 kiadás nyomát, amely a platform stabilizálására törekedett a GPT-5 kezdeti sziklás debütálása után.
Az Endurance Engine: Tömörítés és 24 órás autonómia
A motorháztető alatt az architektúra a kontextuskezelés újszerű megközelítésére támaszkodik, amely alapvetően különbözik a kontextusablak egyszerű kibővítésének brute-force módszerétől.
A versenytársak, mint például a Google, millió token kapacitást szorgalmaznak az aktív memória tárolására.
A modell figyelme szempontjából rendkívül intelligens szemétgyűjtőhöz hasonlóan működik ez a mechanizmus, amely aktívan összefoglalja és megnyirbálja saját történetét, ahelyett, hogy lehetővé tenné, hogy a kontextusablak megteljen irreleváns beszélgetési törmelékkel.
Csak a kritikus állapotváltozások és a döntési logika megtartása lehetővé teszi a rendszer számára, hogy több kontextusablakon keresztül működjön anélkül, hogy elveszítené az eredeti célkitűzést.>Desthp A mérnöki csapat megjegyezte, hogy”a GPT-5.1-Codex-Max hosszú távú, részletes munkára készült. Ez az első modellünk, amelyet natívan több kontextusablakon keresztül, tömörítésnek nevezett folyamaton keresztül való működésre képeztek ki”, kiemelve, hogy képes megőrizni a koherenciát ott is, ahol a korábbi iterációk hallucinációt okoznának vagy hurkot okoznának.
A”lusta ágens”beszélgetési teljesítmény problémájának megoldása az architektúrás modellek hosszának közvetlen csökkenését eredményezi. növekszik.
A vállalat által idézett belső értékelések az állóképesség drámai növekedését sugallják: „Belső értékeléseink során megfigyeltük, hogy a GPT-5.1-Codex-Max több mint 24 órán keresztül dolgozik a feladatokon. Folyamatosan ismétli a megvalósítást, kijavítja a teszthibákat, és végül sikeres eredményt ad. ügynököt, hogy folytassa a munkát a hétvégén, iteratív tesztek futtatásával és saját hibáinak kijavításával, amíg a build át nem megy.
A hatékonyság növekedése kíséri ezt a kitartást. A hosszú munkamenet teljes, tömörítetlen történetének folyamatos újrafeldolgozása azt jelenti, hogy a modell lényegesen kevesebb erőforrást fogyaszt.
Az SWE-bench Verified benchmark esetében a vállalat megjegyzi, hogy „a „közepes” gondolkodási erőfeszítéssel a GPT‑5.1-Codex-Max jobb teljesítményt ér el, mint a GPT‑5.1-Codex… miközben 30%-kal kevesebb felhasználót használ.”
A tokenfelhasználás 30%-os csökkenése közvetlenül az alacsonyabb működési költségeket jelenti, ami kritikus tényező, mivel a mesterséges intelligencia a kísérleti prototípus-készítésről a termelési munkafolyamatok felé halad át.
A sebességnövekedés ugyanilyen mérhető. A valós kódolási feladatok most 27-42%-kal gyorsabban hajtanak végre, mint a korábbi GPT-5.1-Codex modellnél.
Az érvelési modellekkel kapcsolatos gyakori panaszok kezelésére ez a gyorsítás csökkenti a kód előállítása előtt szükséges „gondolkodási” időt. Az érvelési tokenek optimalizálása lehetővé teszi az OpenAI számára, hogy egyensúlyt teremtsen a komplex logikához szükséges gondolkodási mélység és az interaktív fejlesztéshez szükséges reakciókészség között.
A teljesítménymérők igazolják ezeket az architekturális változásokat. Az SWE-bench Verified 77,9%-os pontszámmal a modell felülmúlja elődje 73,7%-át, és új belső rekordot dönt.
Az egyéni közreműködői feladatokat szimuláló SWE-Lancer IC SWE benchmarkon 79,9%-ot ért el, ami arra utal, hogy képes kezelni a
Az ökoszisztéma háborúja: a Windows fókusz és a Gemini rivalizálása
A mesterséges intelligencia szektorban ritkán egybeesik az időzítés. Pontosan 24 órával azután, hogy a Google bemutatta a Gemini 3 Pro-t, ez a kiadás azonnali fej-fej összehasonlítást hoz létre.
A benchmark csata most borotvavékony. A Codex-Max 77,9%-a az SWE-bench Verified-en kis mértékben megelőzi a Gemini 3 Pro esetében jelentett 76,2%-os adatot, ami gyakorlatilag semlegesíti a Google kódolási koronára vonatkozó igényét kevesebb mint egy nappal annak elkészítése után.
A benchmarkokon túl az OpenAI kiszámított játékot hajt végre azzal, hogy megszakítja az Uncentrix iparágat a vállalati piaccal.
Az OpenAI rámutatott, hogy „egyben ez az első olyan modell, amelyet arra képeztünk ki, hogy hatékonyan működjön Windows környezetben, a képzési feladatok pedig jobb együttműködővé teszik a Codex CLI-ben.”
A mesterséges intelligencia kódolási modelljeit a történelem során elsősorban Linux és macOS tárolókra képezték ki, ami súrlódásokhoz vezetett a PowerShell-szkriptek generálásakor vagy a Windows-szkriptek generálásakor. A kifejezetten a Windowsra való képzés az OpenAI-t jobban összehangolja elsődleges partnerének, a Microsoftnak a hatalmas vállalati telepítési bázisával.
A konfliktusban továbbra is az árképzés a legvitatottabb front. A Google piacra dobta a Gemini 3 Pro-t, amelynek agresszív árazási stratégiája körülbelül 0,10 USD/millió bemeneti token.
Ezzel szemben a GPT-5.1 alapvonal lényegesen magasabb, körülbelül 1,25 USD/millió token. Míg az OpenAI azzal érvel, hogy a „Max” modellt olcsóbb futtatni a token hatékonysága miatt, a nyers egységköltségek közötti különbség több mint 10-szeres.
Ez a szakadék óriási nyomást gyakorol az OpenAI-ra annak bizonyítására, hogy „tömörítési” és érvelési képességei dolláronként kiváló értéket adnak, nem pedig pusztán a tokenenkénti kiváló teljesítményt az OpenA rendszeren belül.
A Codex CLI-ben, az IDE-kiterjesztésekben és a Plus-, Pro-és Enterprise-előfizetők felhőkörnyezetében a modell készen áll a bevezetésre.
Azonban az API-hozzáférés jelenleg „hamarosan elérhető”-ként szerepel. Átmeneti akadályt teremtve az egyéni eszközöket vagy harmadik féltől származó alkalmazásokat készítő fejlesztők előtt, ez a késés arra kényszeríti őket, hogy egyelőre az OpenAI belső felületein belül maradjanak.
Az eszközöket körülvevő narratíva megváltoztatása szintén prioritás. Denis Shiryaev, a JetBrains munkatársa az új modellt „igazán ágensnek, a legtermészetesebben autonóm modellnek, amit valaha teszteltem” nevezte, ami a „másodpilótáktól” való eltávolodást tükrözi, amelyek töredékeket sugallnak a munkafolyamatokat kezelő „ügynökök” felé.
Lényeges, hogy a másodpilóta segít gyorsabban gépelni; egy ügynök lehetővé teszi a gépelés teljes leállítását.
A biztonsági plafon: biológiai kockázatok és adatvédelem
A megnövekedett autonómia fokozott kockázatot jelent. A modell mellett kiadott Rendszerkártya a biztonsági besorolás jelentős fokozódásáról árulkodik.
Először egy kódolásra összpontosító kiadásban a Biztonsági Tanácsadó Csoport megerősítette, hogy „a Biológiai Tanácsadó Csoport a magas kockázatú Chemical. tartományban, és továbbra is alkalmazza a megfelelő biztosítékokat.”
GPT-5.1-Codex-Max rendszerkártya
A modell azon képességéből adódóan, hogy képes megtervezni és elhárítani az összetett nedves laboratóriumi protokollokat, ez a besorolás egy új veszélyre világít rá. A Python-szkriptek autonóm hibakeresésére képes ügynök elméletben egy kórokozó szintetizálására szolgáló protokollt is képes hibakeresni, ha hozzáfér a megfelelő szakirodalomhoz és berendezésekhez.
A kiberbiztonság továbbra is az intenzív vizsgálat másik területe. A Biztonsági Tanácsadó Csoport megjegyezte, hogy „a GPT-5.1-Codex-Max a leginkább kiberképes modell, amelyet eddig bevezettünk… [de] nem éri el a magas szintű kiberbiztonsági képességet.”
Bár még nem lépte át azt a küszöböt, amely a telepítési engedélyek leállítását váltaná ki, a modell definícióiban és leírásaiban. javult.
Ennek enyhítésére az OpenAI alapértelmezés szerint szigorú sandbox-kezelést vezetett be. A hálózati hozzáférés le van tiltva, hacsak nincs kifejezetten megadva, és a fájlírási engedélyek zárolva vannak az aktív munkaterülethez, megakadályozva, hogy az ügynök a rendszerkönyvtárakba vándoroljon.
Az adatok megsemmisülése egyedülálló kockázatot jelent az autonóm kódoló ügynökök számára. A terminálhozzáférés elméletileg lehetővé teheti a modell számára, hogy végrehajtson egy parancsot, mint például az „rm-rf/”, és törölje a felhasználó gépét. Ennek ellensúlyozására az OpenAI egy új, „felhasználói modellt” magában foglaló képzési technikát alkalmazott a megerősítő tanulási szakaszban.
Az AI céljaival ellentétes szerkesztéseket végrehajtó felhasználót szimulálva ezzel a módszerrel a modellt kifejezetten a felhasználó munkájának megőrzéséért jutalmazta, nem pedig felülírva, hatékonyan megtanította a mesterséges intelligenciát az emberi hozzájárulások tiszteletben tartására.
p>. Különös figyelmet kaptak azok a támadások is, amelyekben rosszindulatú utasításokat rejtenek a kód megjegyzései vagy a külső dokumentáció. Új szintetikus adatkészleteket hoztak létre, hogy megtanítsák a modellt arra, hogy felismerje és figyelmen kívül hagyja ezeket a támadásokat egy kódolási környezetben.
A technikai biztosítékok ellenére a vállalat fenntartja, hogy az emberi felügyelet nem alku tárgya. A Preparedness Framework előírja, hogy míg az ügynök önállóan is végrehajthat feladatokat, a végső kimenetet egy emberi mérnöknek kell felülvizsgálnia, megerősítve a „virtuális csapattárs” dinamikáját, nem pedig a teljes helyettesítést.