Per contrastare il lancio di Gemini 3 Pro di Google concentrandosi sulla resistenza rispetto alle dimensioni grezze, OpenAI ha rilasciato mercoledì GPT-5.1-Codex-Max.

Introducendo la”compattazione”, il nuovo modello utilizza una tecnica che gli consente di condensare la memoria e sostenere sessioni di codifica autonome per più di 24 ore. Rompendo il”muro della memoria”che in genere blocca le attività a lungo orizzonte, OpenAI afferma che il modello riduce l’utilizzo dei token del 30% garantendo al contempo un punteggio massimo del 77,9% sul benchmark SWE-bench Verified.

Distribuito immediatamente agli utenti Codex, questo aggiornamento segnala un cambiamento strategico verso l’efficienza e il supporto nativo di Windows. Segue da vicino la versione GPT-5.1, che ha cercato di stabilizzare la piattaforma dopo il difficile debutto iniziale di GPT-5.

Il motore Endurance: compattazione e autonomia 24 ore su 24

Sotto il cofano, l’architettura si basa su un nuovo approccio alla gestione del contesto che differisce fondamentalmente dal metodo di forza bruta della semplice espansione della finestra di contesto.

Concorrenti come Google spingono per capacità di milioni di token per contenere intere basi di codice nella memoria attiva, ma OpenAI ha introdotto la”compattazione”.

Funziona in modo simile a un garbage collector altamente intelligente per la capacità di attenzione del modello, questo meccanismo riassume e sfoltisce attivamente la propria cronologia invece di consentire alla finestra di contesto di riempirsi con detriti di conversazione irrilevanti.

Mantenendo solo i cambiamenti critici dello stato e la logica decisionale consente al sistema di operare su più finestre di contesto senza perdere il filo dell’obiettivo originale.

Descrivendo la svolta, il team di ingegneri di OpenAI ha osservato che”GPT‑5.1-Codex-Max è costruito per funzionare a lungo, È il nostro primo modello addestrato nativamente per operare su più finestre di contesto attraverso un processo chiamato compattazione”, evidenziando la sua capacità di mantenere la coerenza laddove le iterazioni precedenti avrebbero avuto allucinazioni o loop.

Affrontando direttamente il problema dell'”agente pigro”, questo cambiamento architetturale impedisce ai modelli di diminuire le prestazioni all’aumentare della durata della conversazione.

Le valutazioni interne citate dall’azienda suggeriscono un drammatico aumento della resistenza:”Nelle nostre valutazioni interne, abbiamo osservato. GPT‑5.1-Codex-Max lavora sulle attività per più di 24 ore. Itererà costantemente sulla sua implementazione, risolverà gli errori dei test e alla fine fornirà un risultato positivo.”

Gli sviluppatori aziendali possono ora assegnare un lavoro di refactoring complesso venerdì sera e aspettarsi che l’agente continui a lavorare durante il fine settimana, eseguendo test in modo iterativo e correggendo i propri errori finché la build non viene completata.

I guadagni di efficienza accompagnano questa resistenza. Non rielaborare costantemente la cronologia completa e non compressa di una lunga sessione significa che il modello consuma molte meno risorse.

Nel benchmark SWE-bench Verified, l’azienda rileva che”GPT‑5.1-Codex-Max con uno sforzo di ragionamento’medio’raggiunge prestazioni migliori rispetto a GPT‑5.1-Codex… utilizzando il 30% in meno di token pensanti.”

Gli utenti API con volume elevato vedranno una riduzione del 30% dei token il consumo si traduce direttamente in costi operativi inferiori, un fattore critico poiché l’intelligenza artificiale passa dalla prototipazione sperimentale ai flussi di lavoro di produzione.

I miglioramenti della velocità sono ugualmente misurabili. Le attività di codifica nel mondo reale ora vengono eseguite tra il 27% e il 42% più velocemente rispetto al precedente modello GPT-5.1-Codex.

 
Rispondendo a una lamentela comune relativa ai modelli di ragionamento, questa accelerazione riduce il tempo di”riflessione”richiesto prima di produrre codice. L’ottimizzazione dei token di ragionamento consente a OpenAI di bilanciare la profondità di pensiero richiesta per la logica complessa con la reattività necessaria per lo sviluppo interattivo.

Le metriche delle prestazioni convalidano questi cambiamenti architettonici. Con un punteggio del 77,9% su SWE-bench Verified, il modello supera il 73,7% del suo predecessore e stabilisce un nuovo record interno.

Sul benchmark SWE-Lancer IC SWE, che simula le attività dei singoli contributori, ha raggiunto il 79,9%, suggerendo che può gestire la maggior parte dei ticket di routine assegnati agli ingegneri junior.

Inoltre, un punteggio del 58,1% su TerminalBench 2.0 indica un solida capacità di navigare nelle interfacce della riga di comando, un’area notoriamente difficile per i LLM a causa della natura spietata degli errori di sintassi negli ambienti terminali.

La guerra dell’ecosistema: Windows Focus e la rivalità tra Gemini

I tempi raramente sono casuali nel settore dell’intelligenza artificiale. Esattamente 24 ore dopo la presentazione di Gemini 3 Pro da parte di Google, questa versione crea un confronto testa a testa immediato.

La battaglia sui benchmark è ora estremamente sottile. Il 77,9% di Codex-Max su SWE-bench Verified supera di poco il dato del 76,2% riportato per Gemini 3 Pro, neutralizzando di fatto la pretesa di Google alla corona della codifica meno di un giorno dopo che è stato realizzato.

Al di là dei benchmark, OpenAI sta facendo un gioco calcolato per il mercato aziendale rompendo con la tradizione incentrata su Unix del settore.

OpenAI ha sottolineato che”è anche il primo modello ci siamo formati per operare in modo efficace in ambienti Windows, con attività di formazione che lo rendono un collaboratore migliore nella CLI Codex.”

Storicamente, i modelli di codifica AI sono stati addestrati principalmente su repository Linux e macOS, causando attriti durante la generazione di script PowerShell o la navigazione nel file system di Windows. La formazione esplicita per Windows allinea OpenAI più strettamente con l’enorme base di installazione aziendale del suo partner principale, Microsoft.

I prezzi rimangono il fronte più controverso in questo conflitto. Google ha lanciato Gemini 3 Pro con una strategia di prezzo aggressiva di circa 0,10 dollari per milione di token di input.

Al contrario, la linea di base GPT-5.1 è significativamente più alta, pari a circa 1,25 dollari per milione di token. Sebbene OpenAI sostenga che il modello”Max”sia più economico da gestire grazie all’efficienza dei token, la disparità dei costi unitari grezzi è di oltre 10 volte.

Tale divario esercita un’enorme pressione su OpenAI per dimostrare che le sue capacità di”compattazione”e di ragionamento offrono un valore superiore per dollaro, piuttosto che semplicemente prestazioni superiori per token.

La disponibilità è immediata per gli utenti all’interno dell’ecosistema OpenAI. Il modello, disponibile nella CLI Codex, nelle estensioni IDE e negli ambienti cloud per gli abbonati Plus, Pro ed Enterprise, è pronto per la distribuzione.

Tuttavia, l’accesso API è attualmente indicato come”disponibile a breve”. Creando una barriera temporanea per gli sviluppatori che creano strumenti personalizzati o applicazioni di terze parti, questo ritardo li costringe a rimanere per ora all’interno delle interfacce proprietarie di OpenAI.

Anche cambiare la narrativa che circonda questi strumenti è una priorità. Denis Shiryaev di JetBrains ha definito il nuovo modello”genuinamente agentico, il modello più naturalmente autonomo che abbia mai testato”, riflettendo un allontanamento dai”copiloti”che suggeriscono snippet verso gli”agenti”che gestiscono i flussi di lavoro.

Fondamentalmente, un copilota ti aiuta a digitare più velocemente; un agente ti consente di smettere del tutto di digitare.

Il tetto della sicurezza: rischi biologici e difesa dei dati

Una maggiore autonomia comporta maggiori rischi. La System Card rilasciata insieme al modello rivela un significativo aumento nella classificazione della sicurezza.

Per la prima volta in un rilascio incentrato sulla codifica, il gruppo consultivo sulla sicurezza ha confermato che”stiamo trattando GPT-5.1-Codex-Max come ad alto rischio nel dominio biologico e chimico e continuando ad applicare la corrispondente garanzie.”

Scheda di sistema GPT-5.1-Codex-Max

 
Derivato dalla capacità del modello di pianificare e risolvere i problemi di protocolli complessi di laboratorio umido, questa classificazione evidenzia un nuovo pericolo. Un agente in grado di eseguire il debug in modo autonomo di uno script Python può, in teoria, anche eseguire il debug di un protocollo per sintetizzare un agente patogeno se ha accesso alla letteratura e alle attrezzature giuste.

La sicurezza informatica rimane un’altra area di intenso controllo. Il Safety Advisory Group ha osservato che”GPT-5.1-Codex-Max è il modello più cyber-capace che abbiamo implementato fino ad oggi… [ma] non raggiunge capacità elevate in termini di sicurezza informatica.”

Sebbene non abbia ancora superato la soglia che potrebbe innescare un’interruzione dell’implementazione, la competenza del modello nell’identificare le vulnerabilità e scrivere script di exploit è migliorata.

Per mitigare questo problema, OpenAI ha implementato un rigoroso sandboxing per impostazione predefinita. L’accesso alla rete è disabilitato a meno che non sia concesso esplicitamente e le autorizzazioni di scrittura dei file sono bloccate nell’area di lavoro attiva, impedendo all’agente di vagare nelle directory di sistema.

La distruzione dei dati è un rischio unico per gli agenti di codifica autonomi. L’accesso al terminale potrebbe teoricamente consentire a un modello di eseguire un comando come”rm-rf/”e cancellare la macchina di un utente. Per contrastare questo, OpenAI ha utilizzato una nuova tecnica di training che coinvolge un”modello utente”durante la fase di Reinforcement Learning.

Simulando un utente che ha apportato modifiche in conflitto con gli obiettivi dell’IA, questo metodo ha premiato il modello specificatamente per aver preservato il lavoro dell’utente anziché sovrascriverlo, insegnando di fatto all’IA a rispettare i contributi umani ed evitare comandi distruttivi.

Anche gli attacchi di prompt injection, in cui istruzioni dannose sono nascoste all’interno di commenti di codice o documentazione esterna, hanno ricevuto un’attenzione specifica. Sono stati generati nuovi set di dati sintetici per addestrare il modello a riconoscere e ignorare questi attacchi all’interno di un contesto di codifica.

Nonostante queste garanzie tecniche, l’azienda sostiene che il controllo umano non è negoziabile. Il Quadro di preparazione impone che, sebbene l’agente possa eseguire le attività in modo autonomo, il risultato finale deve essere rivisto da un ingegnere umano, rafforzando la dinamica del”compagno di squadra virtuale”anziché una sostituzione completa.

Categories: IT Info