I nuovi modelli di Openai-O3 e O4-Mini-marchiano un forte cambiamento in ciò che Chatgpt può fare senza essere detto. Per la prima volta, il sistema non risponde solo alle istruzioni: può decidere, pianificare e agire. Questi modelli possono scegliere quali strumenti interni utilizzare, sia che si tratti di navigazione, lettura dei file, esecuzione del codice o generazione di immagini, e avviare tali azioni in modo indipendente. Openai lo descrive come il primo passo verso il”comportamento agente precoce”.

Come a metà aprile, entrambi i modelli sono attivi per gli utenti di Chatgpt Plus, team e aziende. Stanno sostituendo modelli precedenti come O1 e O3-Mini e sono disponibili per gli utenti con accesso agli strumenti. L’azienda afferma che questi modelli possono ora decidere in modo indipendente quali strumenti utilizzare e quando, senza che l’utente spinge. Ad esempio, un utente può caricare un file complesso e semplicemente chiedere”un riepilogo dei problemi chiave”. Il modello scoprirà quindi se utilizzare lo strumento file, l’interprete di codice o il browser e eseguirà quei passaggi stessi.

> [contenuto incorporato]

ragionamento, memoria e intelligence visiva

Il modello O3 è stato inizialmente visualizzato in anteprima nel dicembre 2024 e successivamente ha dato la priorità a GPT-5 dopo che la strategia di Openai è passata all’inizio di aprile. Openai ha spostato la strategia all’inizio di aprile per separare le linee dei modelli di ragionamento e completamento dopo aver inizialmente progettato di unire le funzionalità O3 in GPT-5.

Oltre a testo e codice, i nuovi modelli possono elaborare e ragionare sulle immagini. Supportano funzioni come lo zoom, la rotazione e l’interpretazione di elementi visivi: una capacità basata sulla parte superiore dell’aggiornamento GPT-4O che ha aggiunto la difesa e l’editing delle immagini a Chatgpt nel marzo 2025.

Il rilascio di O3 e O4-Mini è stato cronometrato insieme a una revisione delle capacità di memoria di Chatgpt. L’11 aprile, Openai ha attivato una funzione”richiamo”che consente al modello di fare riferimento a fatti, istruzioni o preferenze da conversazioni precedenti su voce, testo e immagine. Questo sistema supporta sia i ricordi salvati che i riferimenti impliciti alla storia della chat.

Altman ha definito l’aggiornamento”Una caratteristica sorprendentemente grande… indica qualcosa di cui siamo entusiasti: i sistemi di intelligenza artificiale che ti conoscono durante la vita e diventano estremamente utili e personalizzati.”Un utente potrebbe, ad esempio, chiedere a CHATGPT di tenere traccia dei temi di ricerca su diversi PDF e il modello sarebbe in grado di ricordare riassunti precedenti e mettere insieme le informazioni pertinenti automaticamente.

O3 e O4-Mini Performance e Benchmarks

i risultati di base rilasciati da OpenI-Open. Modelli in vari settori, evidenziando i loro punti di forza l’uno rispetto all’altro e i modelli precedenti.

Nelle valutazioni della capacità di ragionamento, i nuovi modelli mostrano guadagni significativi. Per esigenti valutazioni di matematica della concorrenza come AIME 2024 e 2025 (testato senza assistenza agli strumenti), O4-Mini ha raggiunto la massima precisione, leader in modo stretto. Entrambi i modelli hanno sostanzialmente sovraperformato le precedenti versioni O1 e O3-Mini.

Questo modello si è tenuto per le domande scientifiche a livello di dottorato misurate da GPQA Diamond, dove O4-Mini ha nuovamente limitato a O3, con entrambi che hanno dimostrato un marcato miglioramento rispetto ai loro predefiniti. Quando si affrontano ampie domande a livello di esperti (“L’ultimo esame dell’umanità”), O3 sfruttano gli strumenti di pitone e navigazione ha fornito forti risultati, secondo solo a una configurazione di ricerca profonda specializzata. Il modello O4-Mini, utilizzando anche strumenti, ha funzionato bene, mostrando un netto vantaggio rispetto alla sua versione senza strumenti e ai modelli più vecchi.

Capacità di codifica e ingegneria del software

La competenza dei modelli nella codifica e lo sviluppo del software è stata testata su diversi benchmark. Sulle attività di codifica della concorrenza Codeforces, O4-Mini (se abbinato a uno strumento terminale) ha ottenuto la più alta valutazione ELO, seguita da vicino da O3 utilizzando lo stesso strumento. Questi punteggi rappresentano un grande progresso rispetto a O3-Mini e O1.

Nella modifica del codice poliglotta valutato da Aider, la variante O3-alta ha dimostrato la migliore precisione complessiva. Mentre O4-Mini-alto si è esibito meglio di O1-High e O3-Mini-High, ha seguito O3-alto in questo particolare test. Per le attività di ingegneria software verificata su Bench SWE, O3 ha mostrato un leggero piombo su O4-Mini, sebbene entrambi fossero chiaramente superiori a O1 e O3-Mini. Si è verificata un’eccezione notevole nella simulazione dell’attività freelance SWE-Lancer, in cui il più vecchio modello O1-alto ha generato utili simulati più alti rispetto ai nuovi modelli O3-High, O4-Mini-High e O3-Mini-High.

>

Competenze agricole: seguito di istruzioni, uso dello strumento e chiamata di funzione

Le funzionalità agenti migliorate dei nuovi modelli sono state riflesse in test specifici. Sulla scala MultiChallenge per le istruzioni multi-turn, O3 ha raggiunto il punteggio migliore, davanti a O1, O4-Mini e O3-Mini. Nei test di navigazione Web agenti (BrowseComp), O3 che utilizza Python e la navigazione ha mostrato un’elevata precisione, superando significativamente la capacità di O1.

>

Il modello O4-Mini con strumenti ha anche dimostrato competenza nella navigazione, sebbene il suo punteggio fosse inferiore a quello di O3 in questa configurazione. Le prestazioni di chiamata di funzione, valutate tramite tau-panca, variano per dominio del compito. La configurazione o3-alta eccelleva nel dominio di vendita al dettaglio, mentre O1-alto aveva un leggero vantaggio nel dominio della compagnia aerea rispetto a O3-High e O4-Mini-alto. Tuttavia, O4-Mini-High ha mostrato una capacità di chiamata di funzione generalmente forte in entrambi i domini rispetto a O3-Mini-High.

Comprensione multimodale

Anche le prestazioni su compiti che richiedono la comprensione visiva sono stati misurati. Attraverso diversi benchmark multimodali, tra cui MMMU (risoluzione dei problemi visivi a livello universitario), matematica (ragionamento matematico visivo) e ragionamento Charxiv (interpretazione delle figure scientifiche), il modello O3 ha costantemente raggiunto i punteggi di precisione più elevati secondo i dati di Openi. Anche il modello O4-Mini si è esibito quasi, seguendo da vicino O3. Sia O3 che O4-Mini hanno segnato un sostanziale miglioramento rispetto al modello O1 in queste capacità di ragionamento visivo.

Efficienza e costo-performance

Oltre la capacità grezza, i dati di benchmark di OpenII indicano passi significativi nell’efficienza del modello. Il modello O4-Mini ha fornito costantemente prestazioni più elevate di O3-Mini su parametri di riferimento come AIME 2025 e GPQA Pass@1 in diverse impostazioni operative (basso, medio, alto), il tutto pur avendo un costo di inferenza stimato inferiore. Un vantaggio simile è stato visto per O3 rispetto a O1; O3 ha ottenuto risultati considerevolmente migliori sugli stessi parametri di riferimento ma a un costo stimato ridotto per le impostazioni comparabili. Ciò suggerisce che i progressi della Serie O includono non solo una maggiore intelligenza, ma anche una migliore efficienza computazionale.

Nel complesso, i dati sulle prestazioni di Openi indicano che O3 imposta frequentemente il marchio ad alta acqua, in particolare in operazioni agenti complesse e attività multimodali. Contemporaneamente, O4-Mini si rivela un modello molto capace e notevolmente efficiente, spesso corrispondente o addirittura supera l’O3 nei benchmark di ragionamento e codifica specifici, offrendo al contempo un risparmio di costi significativi rispetto a O3-Mini. Entrambi i nuovi modelli rappresentano un chiaro e sostanziale passo avanti rispetto alle precedenti offerte di Openai attraverso la maggior parte delle capacità testate.

Testi di sicurezza compressi SPARKS PRENOZIONE

La rapida lancio di Openi della Serie O ha sollevato preoccupazioni internamente ed esternamente. La società ha recentemente aggiornato il suo framework di preparazione per consentire il rilassamento di determinati protocolli di sicurezza se un rivale rilascia un modello ad alto rischio senza garanzie simili. La società ha scritto:”Se un altro sviluppatore di AI di frontiera rilascia un sistema ad alto rischio senza garanzie comparabili, possiamo regolare i nostri requisiti.”

Questo è arrivato tra i rapporti che i test interni per O3 erano stati compressi da diversi mesi a meno di una settimana. Ha aggiunto che l’automazione aveva consentito valutazioni di sicurezza più rapide.

Un’area di preoccupazione è la scelta di Openi di testare i checkpoint intermedi dei modelli anziché le versioni finali. Un ex dipendente ha avvertito:”È una cattiva pratica rilasciare un modello diverso da quello che hai valutato.”

Il framework aggiornato ha anche introdotto nuove categorie tracciate e di ricerca per monitorare i rischi come la replica autonoma, la manipolazione della supervisione e la pianificazione a lungo termine.

Google DeepMind e Anthopic hanno adottato più avvicinamenti cauti. DeepMind ha proposto un quadro globale di sicurezza AGI all’inizio di aprile, mentre Antropic ha pubblicato un toolkit di interpretazione per rendere più trasparente il processo decisionale di Claude. Tuttavia, entrambe le società hanno affrontato un controllo: antropico per la rimozione di impegni di politica pubblica e DeepMind per offrire dettagli limitati di applicazione.

Openai, al contrario, si sta caricando con capacità che avvicinano i suoi modelli ad essere attori indipendenti all’interno del sistema. I modelli O3 e O4-Mini non sono solo più intelligenti: agiscono sul proprio giudizio.

La competizione spinge le capacità degli agenti in avanti

La strategia di Openai si svolge contro un paesaggio competitivo in cui i rivali stanno anche correndo per definire il futuro del ragionamento AI. Microsoft ha già integrato il modello O3-Mini-alto nel suo livello di copilota libero. Più recentemente, la società ha lanciato una funzionalità di Copilot Studio che consente agli agenti AI di interagire direttamente con app desktop e pagine Web. Questi agenti possono simulare azioni utente come i pulsanti di clic o immettere i dati, in particolare utili quando le API non sono disponibili.

Nel frattempo, la linea modello GPT-4.1 di Openi, lanciata il 14 aprile, è stata resa disponibile esclusivamente tramite API. Tale linea è ottimizzata per la codifica, le istruzioni a contesto lungo e la seguizione delle istruzioni, ma manca di uso autonomo dello strumento-che si mette in evidenza la strategia di segmentazione di Openai tra i modelli GPT e la serie O.

dall’assistente all’agente

con il rilascio di O3 e O4-MINI, GAMGPT è entrato in una nuova fase. I modelli non producono solo risposte: pianificano, ragioni e scelgono come agire. Che si tratti di analizzare un documento scientifico, di debug di debug o di regolare un’immagine, questi modelli possono ora decidere quali passi prendere senza aspettare le istruzioni.

Openi lo chiama l’inizio del comportamento simile all’agente. Ma i sistemi agenti sollevano anche nuove preoccupazioni: quanto è trasparente il loro ragionamento? Cosa succede quando fanno una brutta chiamata o abusano di uno strumento? Queste domande non sono più teoriche. Poiché O3 e O4-Mini esercitano a milioni di utenti, le prestazioni del mondo reale-e la responsabilità-sono per essere testate.

Categories: IT Info