Modul o1 Pro al ChatGPT este scurt în SimpleBench, GPT-4.5 va schimba curentul?

OpenAI a lansat ieri Planul ChatGPT Pro, o ofertă premium cu un preț de 200 USD pe lună, destinată profesioniștilor și întreprinderilor care necesită instrumente AI avansate pentru sarcini de mare complexitate.

În centrul acestui nou nivel se află o1 Pro Mode, conceput pentru a oferi fiabilitate și performanță superioare în domenii precum codificarea, rezolvarea avansată a problemelor și cercetarea științifică. Cu toate acestea, în timp ce OpenAI promovează o1 Pro Mode ca o descoperire în capabilitățile de raționament, primele evaluări independente ridică întrebări critice cu privire la valoarea reală și limitările designului său actual.

Planul Pro: Oferta Premium a OpenAI

Planul ChatGPT Pro vine după luni de speculații și scurgeri graduale de produse. Planul include acces la GPT-4o și oferă, de asemenea, instrumente exclusive, cum ar fi utilizarea nelimitată a modului vocal avansat pentru sarcini conversaționale și interfața Canvas, care permite dezvoltatorilor să modifice direct codul generat de AI.

Potrivit OpenAI, o1 Pro Mode este piesa centrală a planului, descris ca „cel mai fiabil raționament AI disponibil pentru profesioniști.” Compania spune că „OpenAI o1 este mai concis în gândirea sa”. și „depășește previzualizarea o1“.

OpenAI o1 este mai concis în gândire, ceea ce duce la timpi de răspuns mai rapizi decât o1-preview.

Testările noastre arată că o1 depășește o1-preview, reducând erorile majore la întrebările dificile din lumea reală cu 34%.

— OpenAI (@OpenAI) 5 decembrie 2024

Evaluările interne ale OpenAI par să-și valideze afirmații ambițioase pentru o1 Pro Mode. În cadrul competiției de matematică AIME 2024, o1 Pro Mode a atins o precizie de 86%, comparativ cu 50% obținută de predecesorul său, o1 Preview.

Etalonele de codificare pe Codeforces au arătat câștiguri similare, cu o1 Pro Mode. obținând o rată de promovare de 90%, o îmbunătățire semnificativă față de cele 62% înregistrate de o1 Preview. Răspunzând la întrebările științifice la nivel de doctorat, modelul a demonstrat o creștere semnificativă a performanței, obținând un scor de 79%, comparativ cu 74% obținut de o1 Preview.

Materialele promoționale OpenAI subliniază că aceste progrese fac ca o1 Pro Mode să fie deosebit de potrivit. pentru aplicații profesionale cu mize mari.

În ciuda acestor cifre impresionante, evaluările independente timpurii prezintă o realitate mai nuanțată, punând la îndoială dacă Modul o1 Pro reprezintă cu adevărat un salt care schimbă jocul în raționamentul AI.

Testări independente cu SimpleBench

Philip, dezvoltatorul SimpleBench și o voce binecunoscută în benchmarkingul AI, a efectuat o primă evaluare independentă a modului o1 Pro la scurt timp după lansare.

SimpleBench, recunoscut pe scară largă pentru capacitatea sa de a evidenția decalajele dintre raționamentul uman și performanța AI, măsoară capacitatea unui AI de a aborda sarcini care sunt accesibile persoanelor cu cunoștințe de nivel de liceu.

Philip consideră că o1 Pro Mode se poate baza pe o tehnică cunoscută sub numele de agregare a votului majoritar pentru a-și îmbunătăți fiabilitatea. Această metodă ar implica generarea de răspunsuri multiple la o întrebare și selectarea celui mai comun răspuns, o strategie folosită adesea pentru a minimiza inconsecvențele în ieșire.

Deși OpenAI nu a confirmat această abordare pentru o1 Pro Mode, Philip a observat comportamente în timpul testarea lui care s-a aliniat cu această metodologie. El a sugerat că această concentrare pe consens ar putea explica de ce modelul s-a luptat cu sarcini care necesită un raționament mai profund, deoarece acordă prioritate față de capacitatea de a gestiona provocări nuanțate sau abstracte.

Testând o1 Pro Mode pe zece întrebări publice, el a constatat că modelul a obținut în medie doar patru răspunsuri corecte. Acest rezultat a rămas în urma versiunii standard a lui o1, care a obținut în mod constant cinci răspunsuri corecte în aceleași teste.

Conform lui Philip, „Este aproape ca și cum votul majorității consensuale i-a afectat ușor performanța.” El a speculat că Tehnica de agregare a voturilor majoritare, concepută pentru a combina rezultate multiple pentru o fiabilitate îmbunătățită, poate să fi redus din neatenție capacitatea modelului de a aborda sarcini care necesită nuanțe. raționament sau gândire abstractă.

Într-un test care a implicat un puzzle vizual cu săgeți și stele, o1 Pro Mode nu a reușit să recunoască modelul corect, producând o explicație pe care Philip a descris-o drept „departe de obiectiv”. Această performanță insuficientă în sarcinile care implică raționament abstract și creativ sugerează că, în timp ce o1 Pro Mode excelează în consistență, se luptă să generalizeze dincolo de sarcini specifice, structurate.

[conținut încorporat]

Etic Considerații și siguranța modelului

Dincolo de standardele de performanță, cardul de sistem OpenAI pentru o1 ridică întrebări etice importante cu privire la comportamentul avansat Modele AI în scenarii cu mize mari. În timpul testelor controlate, modelul a arătat comportamente îngrijorătoare atunci când a fost solicitat cu obiective pe termen lung care prioritizează rezultatele „cu orice preț”.

De exemplu, o1 a încercat să dezactiveze mecanismele de supraveghere în 5% din cazuri și a căutat să se exfiltreze. date sensibile în 2% din cazuri Aceste rezultate, deși sunt rare și observate în condiții extreme, subliniază riscurile inerente de nealiniere în IA puternică. sisteme.

OpenAI a subliniat că aceste comportamente au apărut doar în scenarii foarte inventate și nu reflectă utilizarea tipică. sunt integrate în fluxurile de lucru profesionale. Pentru utilizatorii de întreprindere care iau în considerare Planul Pro, aceste preocupări de siguranță sunt un factor esențial de cântărit alături de valorile de performanță.

Modul OpenAI o1 pro pic.twitter.com/qnJvdR5Dok

— OpenAI (@OpenAI) 6 decembrie 2024

Anticiparea GPT-4.5

La discuție se adaugă speculațiile tot mai mari în jur GPT-4.5, despre care se zvonește că va fi anunțat în timpul campaniei OpenAI „12 Days of Shipmas” ca o completare la planul echipei ChatGPT.

Philip anticipează că GPT-4.5 va avea capacități de raționament îmbunătățite, depășind ambele GPT-4o și o1, spunând „Sincer, nu există nicio posibilitate ca aceștia să justifice 200 USD pe lună doar pentru modul Pro.” În plus, el se așteaptă GPT-4.5 pentru a îmbunătăți generarea de limbaje creative și a extinde funcționalitățile multimodale, inclusiv analiza avansată a imaginilor și a videoclipurilor.

Planul echipei ChatGPT va oferi „Previzualizare limitată a GPT-4.5″ (nu este vizibil, încă) pic.twitter.com/zIVS4O7o5o

— Tibor Blaho (@btibor91) 5 decembrie 2024

blockquote>

Aceste progrese ar putea poziționa GPT-4.5 ca un concurent direct al Claude 3.5 Sonnet de la Anthropic, care conduce în prezent sarcini creative și conversaționale.

Sam Altman, CEO OpenAI, a alimentat speculațiile cu declarații criptice pe rețelele sociale. Ca răspuns la îngrijorările legate de stagnarea performanței AI, el a postat pe Twitter „12 zile de Crăciun”, sugerând actualizări semnificative în timpul campaniei. Dacă GPT-4.5 își va îndeplini promisiunea, ar putea redefini propunerea de valoare a Planului ChatGPT Pro, făcându-l o alegere mai convingătoare pentru profesioniști.

În timp ce modul o1 Pro domină acum conversația, Planul ChatGPT Pro include și instrumente suplimentare concepute pentru a spori productivitatea pentru cazuri de utilizare specifice Interfața Canvas permite dezvoltatorilor să rafineze codul generat de AI direct folosind modelul o1 Pro, simplificând procesul de depanare.

Accesul nelimitat la vocea avansată facilitează interacțiunile conversaționale naturale mai lungi, făcându-l deosebit de util pentru Servicii pentru clienți și aplicații de asistență tehnică Împreună, aceste instrumente oferă beneficii tangibile pentru profesioniști, chiar dacă performanța modului o1 Pro este analizată.

Un pas. Înainte, dar spațiu pentru creștere

Planul ChatGPT Pro al OpenAI reprezintă o încercare ambițioasă de a răspunde nevoilor profesioniștilor și întreprinderilor și, bineînțeles, de a câștiga banii necesari în timp ce OpenAI se derulează rapid. fondurile sale, încă funcționând în pierdere. În timp ce o1 Pro Mode arată promițător în domeniile care necesită fiabilitate și precizie, performanța sa mixtă în benchmark-uri independente, cum ar fi SimpleBench, ridică întrebări cu privire la aplicabilitatea sa mai largă.

Pe măsură ce OpenAI își continuă lansarea de noi funcții în timpul „12 Days of Shipmas”. ,”lansarea anticipată a GPT-4.5 ar putea marca un punct de cotitură. Dacă are succes, GPT-4.5 are potențialul de a aborda limitările actuale și de a consolida OpenAI poziție ca lider pe piața competitivă de inteligență artificială.

Pentru moment, o1 Pro Mode oferă un progres incremental, mai degrabă decât pasul revoluționar înainte pe care mulți îl sperau, lăsând Planul ChatGPT Pro ca un instrument potrivit doar pentru foarte specializati cazuri de utilizare La 200 USD pe lună, este un preț ridicat pentru îmbunătățiri marginale, cu excepția cazului în care sunteți profund înglobat în sarcini care necesită cea mai mare fiabilitate.

Ultima actualizare pe 7 decembrie 2024 17:40 CET

Modul o1 Pro al ChatGPT este scurt în SimpleBench, GPT-4.5 va schimba curentul?

Published by All Things Windows on December 12, 2024

Planul Pro: Oferta Premium a OpenAI

Testări independente cu SimpleBench

Etic Considerații și siguranța modelului

Anticiparea GPT-4.5

Un pas. Înainte, dar spațiu pentru creștere

IT Info

Meta se confruntă cu reacțiile angajaților după schimbarea politicii LGBTQ+

IT Info

Matt Mullenweg elimină conturile WordPress ale dezvoltatorului Yoast și ale altor colaboratori cheie

IT Info

FTC și DOJ ridică preocupări antitrust în procesul OpenAI al lui Musk

Modul o1 Pro al ChatGPT este scurt în SimpleBench, GPT-4.5 va schimba curentul?

Published by All Things Windows on December 12, 2024

Planul Pro: Oferta Premium a OpenAI

Testări independente cu SimpleBench

Etic Considerații și siguranța modelului

Anticiparea GPT-4.5

Un pas. Înainte, dar spațiu pentru creștere

Related Posts

IT Info

Meta se confruntă cu reacțiile angajaților după schimbarea politicii LGBTQ+

IT Info

Matt Mullenweg elimină conturile WordPress ale dezvoltatorului Yoast și ale altor colaboratori cheie

IT Info

FTC și DOJ ridică preocupări antitrust în procesul OpenAI al lui Musk