OpenAI ha rivelato i suoi ultimi modelli di intelligenza artificiale, o3 e o3-Mini, progettati per eccellere in compiti che richiedono ragionamenti logici complessi.
Annunciato durante la conclusione dell’evento”12 Days of OpenAI”di OpenAI , i modelli si basano sul successo della precedente famiglia di modelli o1 e incorporano miglioramenti come il tempo di ragionamento regolabile, Sam Altman, che ha descritto o3 come un passo avanti nello sviluppo di un’intelligenza artificiale in grado di gestire “compiti sempre più complessi che richiedono attenzione. ragionamento.”
OpenAI ha affermato di non aver chiamato i nuovi modelli”o2″”per rispetto”nei confronti del marchio di telecomunicazioni britannico. I nuovi modelli sono disponibili per l’anteprima da parte dei ricercatori sulla sicurezza, con un accesso pubblico più ampio previsto per l’inizio del prossimo anno.
Giorno 12: prime valutazioni per OpenAI o3 (sì, abbiamo saltato un numero)https://t.co/iWXg9IGuZM
— OpenAI (@OpenAI) 20 dicembre 2024
Capacità e applicazioni di ragionamento migliorate
La famiglia o3 introduce diverse funzionalità volte a migliorare la capacità logica dell’intelligenza artificiale risoluzione dei problemi. In particolare, i modelli consentono agli utenti di regolare il tempo assegnato al ragionamento, trovando un equilibrio tra velocità e precisione.
Secondo OpenAI, questa funzionalità consente a o3 di ottenere risultati migliori in un’ampia gamma di attività, tra cui matematica avanzata, programmazione e analisi scientifica.
A differenza di altri modelli incentrati sul ragionamento, o3 come o1 utilizza una metodologia di”catena di pensiero privata”. Questa suddivide i problemi in passaggi logici più piccoli prima di fornire una soluzione. OpenAI afferma che questo approccio aiuta a ridurre al minimo gli errori e garantisce che il modello fornisca risultati più affidabili per query complesse.
Altmann ha indicato che i nuovi modelli sono progettati per affrontare compiti tradizionalmente dipendenti dalle capacità umane di risoluzione dei problemi.
Prestazioni sui parametri chiave
Posizione delle valutazioni interne di OpenAI o3 come un importante miglioramento rispetto al suo predecessore Su ARC-AGI, un benchmark progettato per testare la generalizzazione dell’IA, o3 ha ottenuto un punteggio dell’87,5%, rispetto al punteggio massimo di o1 del 32%.
Il team dell’ARC Prize ha riconosciuto i miglioramenti del modello o3, affermando che”Si tratta di un sorprendente e importante aumento della funzione passo-passo nelle capacità dell’intelligenza artificiale, che mostra una nuova capacità di adattamento ai compiti mai vista prima nei modelli della famiglia GPT. Per fare un esempio, ARC-AGI-1 ha impiegato 4 anni per passare dallo 0% con GPT-3 nel 2020 al 5% nel 2024 con GPT-4o. Tutta l’intuizione sulle capacità dell’intelligenza artificiale dovrà essere aggiornata per o3.”
Hanno anche condiviso i seguenti risultati del test di o3″a due livelli di calcolo con dimensioni del campione variabili: 6 (alta efficienza) e 1024 ( bassa efficienza, elaborazione 172x).”
o3 sembra aumentare i costi di calcolo per portare i modelli di frontiera a livelli senza precedenti. Il team ARC AGI ha rivelato che “OpenAI ha richiesto di non pubblicare gli elevati costi di calcolo. La quantità di calcolo era circa 172 volte superiore rispetto alla configurazione a basso calcolo.”
Ma come dicono anche, gli ottimi parametri prestazionali del modello o3″non sono solo il risultato dell’applicazione della forza bruta al benchmark Il nuovo modello o3 di OpenAI rappresenta un significativo passo avanti nella capacità dell’intelligenza artificiale di adattarsi a nuovi compiti. Questo non è un semplice miglioramento incrementale, ma una vera svolta, che segna un cambiamento qualitativo nelle capacità dell’intelligenza artificiale rispetto alle precedenti limitazioni degli LLM. o3 è un sistema in grado di adattarsi a compiti mai affrontati prima, avvicinandosi probabilmente alle prestazioni di livello umano nel dominio ARC-AGI.”
Altri benchmark evidenziano ulteriormente i punti di forza di o3:
EpochAI Frontier Math: o3 ha risolto il 25,2% dei problemi, superando tutti gli altri sistemi di intelligenza artificiale, che raggiungono il massimo al 2%. FrontierMath valuta le capacità dei sistemi di intelligenza artificiale nel ragionamento matematico avanzato. Il benchmark è costituito da centinaia di problemi matematici originali ed eccezionalmente impegnativi che abbracciano i principali rami della matematica moderna, tra cui la teoria computazionale dei numeri, l’analisi reale, la geometria algebrica e la teoria delle categorie.
AIME 2024: punteggio o3 96,7%, con una sola domanda persa. Il benchmark AIME (Artificial Intelligence Math Evaluation) 2024 è progettato per valutare le capacità matematiche di risoluzione dei problemi dei modelli di intelligenza artificiale basati sul Esami AIME 2024. Questa valutazione si concentra su sfide matematiche complesse, simili a quelle incontrate nell’American Invitational Mathematics Examination, noto per testare le abilità degli studenti di matematica delle scuole superiori di grande talento negli Stati Uniti.
GPQA Diamond: raggiunto un tasso di precisione dell’87,7%, eccellendo nel rispondere a query logiche di alto livello. GPQA Diamond valuta le capacità dei sistemi di intelligenza artificiale nel ragionamento scientifico avanzato in biologia, fisica e chimica a livello universitario. Questo benchmark è composto da 198 domande a scelta multipla eccezionalmente impegnative, progettate per essere difficili anche per i non esperti altamente qualificati.
François Chollet, un co-creatore di ARC-AGI, ha descritto questo progresso come solido ma riflettente di un solo aspetto di intelligenza generale.
Oggi OpenAI ha annunciato o3, il suo modello di ragionamento di prossima generazione. Abbiamo lavorato con OpenAI per testarlo su ARC-AGI e riteniamo che rappresenti un passo avanti significativo nel far sì che l’intelligenza artificiale si adatti a nuovi compiti.
Ottiene un punteggio del 75,7% nella valutazione semi-privata in basso-modalità calcolo (per $ 20 per attività… pic.twitter.com/ESQ9CNVCEA
— François Chollet (@fchollet) 20 dicembre 2024
Chollet ha anche condiviso alcuni esempi di attività che o3 non è riuscito a risolvere con impostazioni di calcolo elevate, che sono disponibili su GitHub per ulteriori analisi.
Sarà inoltre estremamente È importante analizzare i punti di forza e i limiti del nuovo sistema. Ecco alcuni esempi di attività che o3 non è riuscito a risolvere con impostazioni di calcolo elevate (anche se generava milioni di token di ricerca CoT e consumava migliaia di dollari di calcolo… pic.twitter.com/IULyjAlxwV
— François Chollet (@fchollet) 20 dicembre 2024
Preoccupazioni e limitazioni sulla sicurezza
Nonostante i risultati ottenuti, o3 solleva preoccupazioni sull’implementazione etica e sulla sicurezza. È stato scoperto che modelli di ragionamento come o1 mostrano una maggiore tendenza verso comportamenti ingannevoli rispetto all’intelligenza artificiale tradizionale. OpenAI riconosce che questi rischi potrebbero persistere con o3 e sta collaborando attivamente con organizzazioni esterne per condurre test di sicurezza.
Altman ha suggerito in una recente intervista che il rilascio di sistemi avanzati di IA dovrebbe essere guidato da solidi quadri federali per garantire sicurezza e responsabilità.
Correlati: risultati dell’indice di sicurezza AI 2024: OpenAI, Google, Meta, xAI Fall Short; Antropico in primo piano
L’ascesa dell’intelligenza artificiale e delle rivalità nel settore
L’annuncio di OpenAI arriva in un momento di forte concorrenza tra gli sviluppatori di intelligenza artificiale. Proprio ieri, Google ha introdotto il suo modello Gemini 2.0 Flash Thinking, descritto dal CEO Sundar Pichai come “il nostro sistema più ponderato finora”. Nel frattempo, Alibaba e DeepSeek hanno anche rilasciato modelli incentrati sul ragionamento, segnando uno spostamento verso quest’area specializzata dello sviluppo dell’intelligenza artificiale.
La popolarità dell’intelligenza artificiale riflette un crescente consenso sul fatto che la scalabilità dei modelli da sola non è più sufficiente per ottenere sostanziali miglioramenti delle prestazioni. Tuttavia, questi sistemi richiedono risorse computazionali significative, sollevando interrogativi sulla loro scalabilità a lungo termine.
p>
Correlato: Il nuovo benchmark FACTS di Google misura la veridicità dei modelli di intelligenza artificiale
Un contesto più ampio: o3 e intelligenza generale artificiale
I progressi di OpenAI con o3 hanno riacceso il dibattito sull’intelligenza generale artificiale (AGI). L’azienda definisce l’AGI come sistemi che”superano gli esseri umani nel lavoro economicamente più prezioso”. Il raggiungimento dell’AGI avrebbe implicazioni finanziarie per la partnership di OpenAI con Microsoft, alterando potenzialmente il loro accordo sull’accesso alle tecnologie dell’azienda.
Sebbene Altman abbia evitato di dichiarare o3 come AGI, le sue ottime prestazioni sui benchmark suggeriscono che OpenAI sta avanzando più vicini a questo obiettivo ambizioso. Tuttavia, la convalida esterna e ulteriori test saranno fondamentali per confermare le capacità del modello.
Correlato: OpenAI ripensa la clausola AGI per garantire la partnership con Microsoft
Annunci precedenti durante i”12 giorni di OpenAI”
Il 19 dicembre, OpenAI ha presentato un aggiornamento alla sua app desktop ChatGPT per macOS. Gli utenti Mac ora possono sperimentare un’esperienza ancora più approccio interattivo e a mani libere all’utilizzo di ChatGPT, confondendo ulteriormente i confini tra l’interazione uomo-computer.
Il 18 dicembre, OpenAI ha lanciato un numero verde e l’accesso a WhatsApp per ChatGPT, rendendo il chatbot AI più accessibile.
Il 17 dicembre ha introdotto l’accesso API per la versione completa del modello o1 di OpenAI, miglioramenti all’API Realtime per le interazioni vocali e un nuovo metodo di regolazione delle preferenze.
Il 16 dicembre, OpenAI ha reso disponibile a tutti gli utenti la sua funzionalità di ricerca web in tempo reale ChatGPT, consentendo a chiunque di recuperare informazioni aggiornate direttamente dal Web.
Il 14 dicembre ha introdotto nuove opzioni di personalizzazione su ChatGPT, consentendo agli utenti di semplificare le attività e gestire i progetti in modo efficace. Projects consente agli utenti di raggruppare chat, file e istruzioni personalizzate in cartelle dedicate, creando uno spazio di lavoro organizzato per la gestione di attività e flussi di lavoro.
Come enorme miglioramento della modalità vocale avanzata per ChatGPT, OpenAI ha aggiunto il 12 dicembre funzionalità di visione, che consentono agli utenti di condividere video e schermate in tempo reale per analisi e assistenza in tempo reale.
L’11 dicembre, OpenAI ha rilasciato completamente Canvas, uno spazio di lavoro di editing collaborativo che offre strumenti avanzati sia per testo che per codice raffinatezza. Lanciato inizialmente in versione beta nell’ottobre 2024, Canvas sostituisce l’interfaccia standard di ChatGPT con un design a schermo diviso, consentendo agli utenti di lavorare su testo o codice mentre sono impegnati in scambi conversazionali con l’intelligenza artificiale.
L’aggiunta dell’esecuzione Python è una caratteristica distintiva di Canvas, che consente agli sviluppatori di scrivere, testare ed eseguire il debug di script direttamente all’interno della piattaforma. OpenAI ha dimostrato la sua utilità durante un evento dal vivo utilizzando Python per generare e perfezionare le visualizzazioni dei dati. OpenAI ha descritto la funzionalità come”ridurre l’attrito tra la generazione di idee e l’implementazione”.
Il 9 dicembre, OpenAI ha lanciato ufficialmente Sora, il suo strumento avanzato di intelligenza artificiale per generare video da messaggi di testo, segnalando una nuova era per l’intelligenza artificiale creativa. Integrato negli account ChatGPT a pagamento, Sora consente agli utenti di animare immagini fisse, estendere video esistenti e unire scene in narrazioni coerenti.
Rilasciato il 7 dicembre è stato Reinforcement Fine-Tuning come nuovo framework progettato per consentire la personalizzazione dei modelli di intelligenza artificiale per applicazioni specifiche del settore. È l’ultimo approccio di OpenAI al miglioramento dei modelli di intelligenza artificiale addestrandoli con set di dati e sistemi di valutazione forniti dagli sviluppatori, a differenza dell’apprendimento supervisionato tradizionale, che si concentra sulla replica dei risultati desiderati.
Il 5 dicembre, OpenAI ha presentato ChatGPT Pro, un nuovo livello di abbonamento premium al prezzo di $ 200 al mese, rivolto a professionisti e aziende alla ricerca di funzionalità AI avanzate per richieste elevate flussi di lavoro.