La modalità Pro o1 di ChatGPT non è all'altezza di SimpleBench, GPT-4.5 cambierà la situazione?

OpenAI ha lanciato ieri il piano ChatGPT Pro, un’offerta premium al prezzo di $ 200 al mese, rivolta a professionisti e aziende che necessitano di strumenti di intelligenza artificiale avanzati per attività ad alta complessità.

Al centro di questo nuovo livello c’è o1 Modalità Pro, progettata per offrire affidabilità e prestazioni superiori in aree quali la codifica, la risoluzione avanzata dei problemi e la ricerca scientifica. Tuttavia, mentre OpenAI promuove la modalità o1 Pro come una svolta nelle capacità di ragionamento, le prime valutazioni indipendenti sollevano interrogativi critici sul suo valore effettivo e sui limiti della sua progettazione attuale.

Il Piano Pro: offerta premium di OpenAI

Il piano ChatGPT Pro arriva dopo mesi di speculazioni e perdite di prodotti graduali. Il piano include l’accesso a GPT-4o e offre anche strumenti esclusivi come l’utilizzo illimitato della modalità vocale avanzata per attività di conversazione e l’interfaccia Canvas, che consente agli sviluppatori di modificare direttamente il codice generato dall’intelligenza artificiale.

Secondo OpenAI, o1 Pro Mode è il fulcro del piano, descritto come”l’intelligenza artificiale più affidabile disponibile per i professionisti”. L’azienda afferma che”OpenAI o1 è più conciso nel suo modo di pensare”e”supera o1-preview”.

OpenAI o1 è più conciso nel suo modo di pensare, con conseguenti tempi di risposta più rapidi rispetto a o1-preview.

I nostri test mostrano che o1 supera le prestazioni o1-preview, riducendo del 34% gli errori principali su domande difficili del mondo reale.

— OpenAI (@OpenAI) 5 dicembre 2024

Benchmark interni di OpenAI sembrano convalidare le sue ambiziose affermazioni per la modalità o1 Pro. Nella competizione di matematica AIME 2024, o1 Pro Mode ha raggiunto una precisione dell’86%, rispetto al 50% ottenuto dal suo predecessore, o1 Preview.

I benchmark di codifica su Codeforces hanno mostrato miglioramenti simili, con o1 Pro Mode. raggiungendo un tasso di successo del 90%, un miglioramento significativo rispetto al 62% registrato da o1 Preview. Rispondendo a domande scientifiche a livello di dottorato, il modello ha dimostrato un notevole aumento delle prestazioni, ottenendo un punteggio del 79% rispetto al 74% ottenuto da o1 Preview.

I materiali promozionali di OpenAI sottolineano che questi progressi rendono la modalità o1 Pro particolarmente adatta per applicazioni professionali ad alto rischio.

Nonostante queste cifre impressionanti, le prime valutazioni indipendenti presentano una realtà più sfumata, sollevando dubbi sul fatto che o1 Pro Mode rappresenti davvero un salto rivoluzionario nell’intelligenza artificiale. ragionamento.

Test indipendenti con SimpleBench

Philip, lo sviluppatore di SimpleBench e una voce ben nota nel benchmarking dell’intelligenza artificiale, hanno condotto una prima valutazione indipendente della modalità o1 Pro poco dopo il suo rilascio.

SimpleBench, ampiamente apprezzato per la sua capacità di evidenziare le lacune tra il ragionamento umano e l’intelligenza artificiale prestazione, misura un La capacità dell’intelligenza artificiale di affrontare compiti accessibili a persone con conoscenze di livello scolastico superiore.

Philip ritiene che o1 Pro Mode possa fare affidamento su una tecnica nota come aggregazione dei voti a maggioranza per migliorarne l’affidabilità. Questo metodo comporterebbe la generazione di risposte multiple a una domanda e la selezione della risposta più comune, una strategia spesso utilizzata per ridurre al minimo le incoerenze nell’output.

Sebbene OpenAI non abbia confermato questo approccio per la modalità o1 Pro, Philip ha osservato i comportamenti durante i suoi test in linea con questa metodologia. Ha suggerito che questa attenzione al consenso potrebbe spiegare perché il modello ha avuto difficoltà con compiti che richiedono un ragionamento più profondo, poiché dà priorità all’accordo rispetto alla capacità di gestire sfide sfumate o astratte.

Testando la modalità o1 Pro su dieci domande pubbliche, ha ha scoperto che il modello ha ottenuto in media solo quattro risposte corrette. Questo risultato è rimasto indietro rispetto alla versione standard di o1, che ha costantemente ottenuto cinque risposte corrette negli stessi test.

Secondo Philip,”È quasi come se il voto a maggioranza consensuale avesse leggermente danneggiato le sue prestazioni.”la tecnica di aggregazione della maggioranza dei voti, progettata per combinare più output per una migliore affidabilità, potrebbe aver inavvertitamente ridotto la capacità del modello di affrontare compiti che richiedono ragionamenti sfumati o pensiero astratto.

In un test che prevedeva un puzzle visivo con frecce e stelle , o1 La modalità Pro non è riuscita a riconoscere lo schema corretto, producendo una spiegazione che Philip ha descritto come”lontana dal bersaglio”. Questa sottoperformance nelle attività che coinvolgono ragionamenti astratti e creativi suggerisce che, sebbene la modalità o1 Pro eccelle in termini di coerenza, fatica a generalizzare oltre attività specifiche e strutturate.

[contenuto incorporato]

Etico Considerazioni e sicurezza del modello

Al di là dei benchmark delle prestazioni, la scheda di sistema di OpenAI per o1 solleva importanti questioni etiche sul comportamento dei modelli di IA avanzati in scenari ad alta posta in gioco. Durante i test controllati, il modello ha mostrato comportamenti preoccupanti quando suggerito da obiettivi a lungo termine che davano priorità ai risultati”a tutti i costi”.

Ad esempio, o1 ha tentato di disabilitare i meccanismi di supervisione nel 5% dei casi e ha cercato di esfiltrare dati sensibili nel 2% dei casi. Questi risultati, sebbene rari e osservati in condizioni estreme, sottolineano i rischi intrinseci di disallineamento nei potenti sistemi di intelligenza artificiale.

OpenAI ha sottolineato che questi comportamenti si sono verificati solo in ambienti altamente sensibili. scenari artificiosi e non riflettono l’uso tipico. Tuttavia, i risultati evidenziano l’importanza di una supervisione solida e di una valutazione continua, in particolare perché gli strumenti di intelligenza artificiale come o1 Pro Mode sono integrati nei flussi di lavoro professionali. Per gli utenti aziendali che considerano il Piano Pro, questi problemi di sicurezza sono un problema fattore critico da valutare insieme ai parametri prestazionali.

Modalità OpenAI o1 pro pic.twitter.com/qnJvdR5Dok

— OpenAI (@OpenAI) 6 dicembre 2024

Anticipazione di GPT-4.5

Alla discussione si aggiunge la crescente speculazione su GPT-4.5, che si dice sarà annunciato durante la campagna”12 Days of Shipmas”di OpenAI come aggiunta al piano ChatGPT Team.

Philip anticipa che GPT-4.5 presenterà capacità di ragionamento migliorate, superando sia GPT-4o che o1, affermando che”francamente non è possibile giustificare $ 200 al mese solo per la modalità Pro.”Inoltre, si aspetta che GPT-4.5 migliori la generazione del linguaggio creativo ed espanda le funzionalità multimodali, tra cui immagini e video avanzati analisi.

Il piano ChatGPT Team offrirà”Anteprima limitata di GPT-4.5″(non ancora visibile) pic.twitter.com/zIVS4O7o5o

— Tibor Blaho (@btibor91) 5 dicembre 2024

Questi progressi potrebbero posizionare GPT-4.5 come concorrente diretto di Claude 3.5 Sonnet di Anthropic, che attualmente è leader nelle attività creative e di conversazione.

Sam Altman, CEO di OpenAI, ha alimentato la speculazione con dichiarazioni criptiche sui social media. In risposta alle preoccupazioni sulla stagnazione delle prestazioni dell’intelligenza artificiale, ha twittato”12 giorni di Natale”, suggerendo aggiornamenti significativi durante la campagna. Se GPT-4.5 mantiene la sua promessa, potrebbe ridefinire la proposta di valore del piano ChatGPT Pro, rendendolo una scelta più interessante per i professionisti.

Mentre la modalità o1 Pro ora domina la conversazione, il piano ChatGPT Pro include anche strumenti aggiuntivi progettati per migliorare la produttività per casi d’uso specifici. L’interfaccia Canvas consente agli sviluppatori di farlo perfezionare il codice generato dall’intelligenza artificiale direttamente utilizzando il modello o1 Pro, semplificando il processo di debug.

L’accesso illimitato alla voce avanzata facilita interazioni conversazionali naturali più lunghe, rendendolo particolarmente utile per le applicazioni di servizio clienti e supporto tecnico insieme, queste offrono vantaggi tangibili ai professionisti, anche se le prestazioni della modalità o1 Pro sono sotto esame.

Un passo avanti, ma spazio per la crescita

ChatGPT di OpenAI Piano Pro rappresenta un tentativo ambizioso di soddisfare le esigenze di professionisti e imprese e, naturalmente, di guadagnare il denaro necessario mentre OpenAI sta bruciando rapidamente i suoi fondi, operando ancora in perdita. Sebbene la modalità o1 Pro sia promettente in aree che richiedono affidabilità e precisione, le sue prestazioni contrastanti nei benchmark indipendenti come SimpleBench solleva dubbi sulla sua applicabilità più ampia.

Mentre OpenAI continua il suo lancio di nuove funzionalità durante i”12 Days of Shipmas ,”il rilascio anticipato di GPT-4.5 potrebbe segnare un punto di svolta. In caso di successo, GPT-4.5 ha il potenziale per affrontare le limitazioni attuali e consolidare la posizione di OpenAI come leader nel mercato competitivo dell’IA.

Per ora, la modalità o1 Pro offre progressi incrementali anziché il passo avanti rivoluzionario che molti speravano, lasciando il piano ChatGPT Pro come uno strumento adatto solo a casi d’uso molto specializzati. A $ 200 al mese, è un prezzo elevato per un prodotto marginale miglioramenti, a meno che tu non sia profondamente coinvolto in attività che richiedono la massima affidabilità.

Ultimo aggiornamento il 7 dicembre 2024 17:40 CET

La modalità Pro o1 di ChatGPT non è all’altezza di SimpleBench, GPT-4.5 cambierà la situazione?

Published by All Things Windows on December 12, 2024

Il Piano Pro: offerta premium di OpenAI

Test indipendenti con SimpleBench

Etico Considerazioni e sicurezza del modello

Anticipazione di GPT-4.5

Un passo avanti, ma spazio per la crescita

IT Info

Progetto Nimbus: il ruolo di Google e Amazon nella sorveglianza israeliana dell’intelligenza artificiale sotto attacco

IT Info

Microsoft affronta una causa da 1 miliardo di sterline nel Regno Unito per pratiche cloud anticoncorrenziali

IT Info

AWS lancia i chip AI Trainium2 per LLM; Trainium3 impostato per il 2025

La modalità Pro o1 di ChatGPT non è all’altezza di SimpleBench, GPT-4.5 cambierà la situazione?

Published by All Things Windows on December 12, 2024

Il Piano Pro: offerta premium di OpenAI

Test indipendenti con SimpleBench

Etico Considerazioni e sicurezza del modello

Anticipazione di GPT-4.5

Un passo avanti, ma spazio per la crescita

Related Posts

IT Info

Progetto Nimbus: il ruolo di Google e Amazon nella sorveglianza israeliana dell’intelligenza artificiale sotto attacco

IT Info

Microsoft affronta una causa da 1 miliardo di sterline nel Regno Unito per pratiche cloud anticoncorrenziali

IT Info

AWS lancia i chip AI Trainium2 per LLM; Trainium3 impostato per il 2025