A Google Gemini 3 Pro piacra dobása ellensúlyozva, a nyers méretnél nagyobb tartósságra összpontosítva, az OpenAI szerdán kiadta a GPT-5.1-Codex-Max-ot.

A „tömörítés” bevezetésével az új modell olyan technikát alkalmaz, amely lehetővé teszi a memória tömörítését és az autonóm kódolási munkamenetek több mint 24 órán keresztüli fenntartását. A hosszú távú feladatokat jellemzően megakasztó „memóriafalat” áttörve, az OpenAI azt állítja, hogy a modell 30%-kal csökkenti a tokenhasználatot, miközben 77,9%-os csúcspontot biztosít az SWE-bench Verified benchmarkon.

A Codex felhasználók számára azonnali megjelenéssel ez a frissítés stratégiai elmozdulást jelez a támogatási hatékonyság és a Windows rendszer felé. Szorosan követi a GPT-5.1 kiadás nyomát, amely a platform stabilizálására törekedett a GPT-5 kezdeti sziklás debütálása után.

Az Endurance Engine: Tömörítés és 24 órás autonómia

A motorháztető alatt az architektúra a kontextuskezelés újszerű megközelítésére támaszkodik, amely alapvetően különbözik a kontextusablak egyszerű kibővítésének brute-force módszerétől.

A versenytársak, mint például a Google, millió token kapacitást szorgalmaznak az aktív memória tárolására.

A modell figyelme szempontjából rendkívül intelligens szemétgyűjtőhöz hasonlóan működik ez a mechanizmus, amely aktívan összefoglalja és megnyirbálja saját történetét, ahelyett, hogy lehetővé tenné, hogy a kontextusablak megteljen irreleváns beszélgetési törmelékkel.

Csak a kritikus állapotváltozások és a döntési logika megtartása lehetővé teszi a rendszer számára, hogy több kontextusablakon keresztül működjön anélkül, hogy elveszítené az eredeti célkitűzést.>Desthp A mérnöki csapat megjegyezte, hogy”a GPT-5.1-Codex-Max hosszú távú, részletes munkára készült. Ez az első modellünk, amelyet natívan több kontextusablakon keresztül, tömörítésnek nevezett folyamaton keresztül való működésre képeztek ki”, kiemelve, hogy képes megőrizni a koherenciát ott is, ahol a korábbi iterációk hallucinációt okoznának vagy hurkot okoznának.

A”lusta ágens”beszélgetési teljesítmény problémájának megoldása az architektúrás modellek hosszának közvetlen csökkenését eredményezi. növekszik.

A vállalat által idézett belső értékelések az állóképesség drámai növekedését sugallják: „Belső értékeléseink során megfigyeltük, hogy a GPT-5.1-Codex-Max több mint 24 órán keresztül dolgozik a feladatokon. Folyamatosan ismétli a megvalósítást, kijavítja a teszthibákat, és végül sikeres eredményt ad. ügynököt, hogy folytassa a munkát a hétvégén, iteratív tesztek futtatásával és saját hibáinak kijavításával, amíg a build át nem megy.

A hatékonyság növekedése kíséri ezt a kitartást. A hosszú munkamenet teljes, tömörítetlen történetének folyamatos újrafeldolgozása azt jelenti, hogy a modell lényegesen kevesebb erőforrást fogyaszt.

Az SWE-bench Verified benchmark esetében a vállalat megjegyzi, hogy „a „közepes” gondolkodási erőfeszítéssel a GPT‑5.1-Codex-Max jobb teljesítményt ér el, mint a GPT‑5.1-Codex… miközben 30%-kal kevesebb felhasználót használ.”

A tokenfelhasználás 30%-os csökkenése közvetlenül az alacsonyabb működési költségeket jelenti, ami kritikus tényező, mivel a mesterséges intelligencia a kísérleti prototípus-készítésről a termelési munkafolyamatok felé halad át.

A sebességnövekedés ugyanilyen mérhető. A valós kódolási feladatok most 27-42%-kal gyorsabban hajtanak végre, mint a korábbi GPT-5.1-Codex modellnél.

 
Az érvelési modellekkel kapcsolatos gyakori panaszok kezelésére ez a gyorsítás csökkenti a kód előállítása előtt szükséges „gondolkodási” időt. Az érvelési tokenek optimalizálása lehetővé teszi az OpenAI számára, hogy egyensúlyt teremtsen a komplex logikához szükséges gondolkodási mélység és az interaktív fejlesztéshez szükséges reakciókészség között.

A teljesítménymérők igazolják ezeket az architekturális változásokat. Az SWE-bench Verified 77,9%-os pontszámmal a modell felülmúlja elődje 73,7%-át, és új belső rekordot dönt.

Az egyéni közreműködői feladatokat szimuláló SWE-Lancer IC SWE benchmarkon 79,9%-ot ért el, ami arra utal, hogy képes kezelni a rutinmotorok többségét. a TerminalBench 2.0 58,1%-os pontszáma a parancssori felületeken való navigálás robusztus képességét jelzi, amely köztudottan nehéz terület az LLM-ek számára a terminálkörnyezetekben előforduló szintaktikai hibák megbocsáthatatlan természete miatt.

Az ökoszisztéma háborúja: a Windows fókusz és a Gemini rivalizálása

A mesterséges intelligencia szektorban ritkán egybeesik az időzítés. Pontosan 24 órával azután, hogy a Google bemutatta a Gemini 3 Pro-t, ez a kiadás azonnali fej-fej összehasonlítást hoz létre.

A benchmark csata most borotvavékony. A Codex-Max 77,9%-a az SWE-bench Verified-en kis mértékben megelőzi a Gemini 3 Pro esetében jelentett 76,2%-os adatot, ami gyakorlatilag semlegesíti a Google kódolási koronára vonatkozó igényét kevesebb mint egy nappal annak elkészítése után.

A benchmarkokon túl az OpenAI kiszámított játékot hajt végre azzal, hogy megszakítja az Uncentrix iparágat a vállalati piaccal.

Az OpenAI rámutatott, hogy „egyben ez az első olyan modell, amelyet arra képeztünk ki, hogy hatékonyan működjön Windows környezetben, a képzési feladatok pedig jobb együttműködővé teszik a Codex CLI-ben.”

A mesterséges intelligencia kódolási modelljeit a történelem során elsősorban Linux és macOS tárolókra képezték ki, ami súrlódásokhoz vezetett a PowerShell-szkriptek generálásakor vagy a Windows-szkriptek generálásakor. A kifejezetten a Windowsra való képzés az OpenAI-t jobban összehangolja elsődleges partnerének, a Microsoftnak a hatalmas vállalati telepítési bázisával.

A konfliktusban továbbra is az árképzés a legvitatottabb front. A Google piacra dobta a Gemini 3 Pro-t, amelynek agresszív árazási stratégiája körülbelül 0,10 USD/millió bemeneti token.

Ezzel szemben a GPT-5.1 alapvonal lényegesen magasabb, körülbelül 1,25 USD/millió token. Míg az OpenAI azzal érvel, hogy a „Max” modellt olcsóbb futtatni a token hatékonysága miatt, a nyers egységköltségek közötti különbség több mint 10-szeres.

Ez a szakadék óriási nyomást gyakorol az OpenAI-ra annak bizonyítására, hogy „tömörítési” és érvelési képességei dolláronként kiváló értéket adnak, nem pedig pusztán a tokenenkénti kiváló teljesítményt az OpenA rendszeren belül.

A Codex CLI-ben, az IDE-kiterjesztésekben és a Plus-, Pro-és Enterprise-előfizetők felhőkörnyezetében a modell készen áll a bevezetésre.

Azonban az API-hozzáférés jelenleg „hamarosan elérhető”-ként szerepel. Átmeneti akadályt teremtve az egyéni eszközöket vagy harmadik féltől származó alkalmazásokat készítő fejlesztők előtt, ez a késés arra kényszeríti őket, hogy egyelőre az OpenAI belső felületein belül maradjanak.

Az eszközöket körülvevő narratíva megváltoztatása szintén prioritás. Denis Shiryaev, a JetBrains munkatársa az új modellt „igazán ágensnek, a legtermészetesebben autonóm modellnek, amit valaha teszteltem” nevezte, ami a „másodpilótáktól” való eltávolodást tükrözi, amelyek töredékeket sugallnak a munkafolyamatokat kezelő „ügynökök” felé.

Lényeges, hogy a másodpilóta segít gyorsabban gépelni; egy ügynök lehetővé teszi a gépelés teljes leállítását.

A biztonsági plafon: biológiai kockázatok és adatvédelem

A megnövekedett autonómia fokozott kockázatot jelent. A modell mellett kiadott Rendszerkártya a biztonsági besorolás jelentős fokozódásáról árulkodik.

Először egy kódolásra összpontosító kiadásban a Biztonsági Tanácsadó Csoport megerősítette, hogy „a Biológiai Tanácsadó Csoport a magas kockázatú Chemical. tartományban, és továbbra is alkalmazza a megfelelő biztosítékokat.”

GPT-5.1-Codex-Max rendszerkártya

 
A modell azon képességéből adódóan, hogy képes megtervezni és elhárítani az összetett nedves laboratóriumi protokollokat, ez a besorolás egy új veszélyre világít rá. A Python-szkriptek autonóm hibakeresésére képes ügynök elméletben egy kórokozó szintetizálására szolgáló protokollt is képes hibakeresni, ha hozzáfér a megfelelő szakirodalomhoz és berendezésekhez.

A kiberbiztonság továbbra is az intenzív vizsgálat másik területe. A Biztonsági Tanácsadó Csoport megjegyezte, hogy „a GPT-5.1-Codex-Max a leginkább kiberképes modell, amelyet eddig bevezettünk… [de] nem éri el a magas szintű kiberbiztonsági képességet.”

Bár még nem lépte át azt a küszöböt, amely a telepítési engedélyek leállítását váltaná ki, a modell definícióiban és leírásaiban. javult.

Ennek enyhítésére az OpenAI alapértelmezés szerint szigorú sandbox-kezelést vezetett be. A hálózati hozzáférés le van tiltva, hacsak nincs kifejezetten megadva, és a fájlírási engedélyek zárolva vannak az aktív munkaterülethez, megakadályozva, hogy az ügynök a rendszerkönyvtárakba vándoroljon.

Az adatok megsemmisülése egyedülálló kockázatot jelent az autonóm kódoló ügynökök számára. A terminálhozzáférés elméletileg lehetővé teheti a modell számára, hogy végrehajtson egy parancsot, mint például az „rm-rf/”, és törölje a felhasználó gépét. Ennek ellensúlyozására az OpenAI egy új, „felhasználói modellt” magában foglaló képzési technikát alkalmazott a megerősítő tanulási szakaszban.

Az AI céljaival ellentétes szerkesztéseket végrehajtó felhasználót szimulálva ezzel a módszerrel a modellt kifejezetten a felhasználó munkájának megőrzéséért jutalmazta, nem pedig felülírva, hatékonyan megtanította a mesterséges intelligenciát az emberi hozzájárulások tiszteletben tartására.

p>. Különös figyelmet kaptak azok a támadások is, amelyekben rosszindulatú utasításokat rejtenek a kód megjegyzései vagy a külső dokumentáció. Új szintetikus adatkészleteket hoztak létre, hogy megtanítsák a modellt arra, hogy felismerje és figyelmen kívül hagyja ezeket a támadásokat egy kódolási környezetben.

A technikai biztosítékok ellenére a vállalat fenntartja, hogy az emberi felügyelet nem alku tárgya. A Preparedness Framework előírja, hogy míg az ügynök önállóan is végrehajthat feladatokat, a végső kimenetet egy emberi mérnöknek kell felülvizsgálnia, megerősítve a „virtuális csapattárs” dinamikáját, nem pedig a teljes helyettesítést.

Categories: IT Info