noile modele ale lui Openai-O3 și O4-Mini-marchează o schimbare accentuată a ceea ce poate face Chatgpt fără a fi spus. Pentru prima dată, sistemul nu răspunde doar la prompturi-poate decide, planifica și acționa. Aceste modele pot alege ce instrumente interne să utilizeze-fie că este navigarea, citirea fișierelor, execuția codului sau generarea de imagini-și pot iniția astfel de acțiuni. OpenAI descrie acest lucru ca fiind primul pas către „comportamentul agentic timpuriu. Înlocuiesc modele anterioare precum O1 și O3-MINI și sunt disponibile utilizatorilor cu acces la instrumente. Compania afirmă că aceste modele pot decide acum în mod independent ce instrumente să folosească și când, fără a solicita utilizatorilor.

Această autonomie permite ChatGPT să funcționeze mai mult ca un asistent care înțelege intenția și ia inițiativă. De exemplu, un utilizator poate încărca un fișier complex și poate pur și simplu să solicite „un rezumat al problemelor cheie”. Modelul va afla apoi dacă va utiliza instrumentul de fișier, interpretul de cod sau browserul-și va executa acești pași în sine.

[Conținut încorporat]

raționament, memorie și inteligență vizuală

Modelul O3 a fost inițial previzualizat în decembrie 2024 și ulterior a prioritizat asupra GPT-5 după ce strategia lui Openai s-a schimbat la începutul lunii aprilie. OpenAI a schimbat strategia la începutul lunii aprilie pentru a separa raționamentele și finalizarea liniilor de model după ce a planificat inițial să îmbine capacitățile O3 în GPT-5.

Pe lângă text și cod, noile modele pot procesa și raționa asupra imaginilor. Acestea acceptă funcții precum zoom-ul, rotirea și interpretarea elementelor vizuale-o capacitate construită în partea de sus a actualizării GPT-4O care a adăugat inpainting și editarea imaginilor la ChatGPT în martie 2025.

lansarea O3 și O4-MINI a fost cronometrată alături de o revizuire a capacităților de memorie ale Chatgpt. Pe 11 aprilie, OpenAI a activat o caracteristică „reamintire” care permite modelului să facă referire la fapte, instrucțiuni sau preferințe din conversațiile anterioare prin voce, text și imagine. Acest sistem acceptă atât amintiri salvate, cât și referințe implicite la istoricul chat-ului.

Altman a numit upgrade „O caracteristică surprinzător de mare… indică ceva de care suntem încântați: sisteme AI care să te cunoască de-a lungul vieții tale și devin extrem de utile și personalizate.”

pentru a raționa modele precum O3, memoria îmbunătățește capacitatea de a planifica sarcinile pe mai multe pași, sesiuni sau formate. A user could, for example, ask ChatGPT to track research themes over several PDFs, and the model would be able to recall prior summaries and stitch together relevant insights automatically.

o3 and o4-mini Performance and Benchmarks

Benchmark results released by OpenAI provide insight into the capabilities of the new o3 and o4-mini models across Diverse domenii, care evidențiază punctele lor forte în raport cu celălalt și modelele anterioare.

În evaluările capacității de raționament, noile modele prezintă câștiguri semnificative. Pentru a solicita evaluări de matematică a concurenței precum AIME 2024 și 2025 (testate fără asistență pentru instrumente), O4-MINI a obținut cea mai mare precizie, conducând în mare măsură O3. Ambele modele au depășit în mod substanțial versiunile anterioare O1 și O3-MINI.

Acest model susținut pentru întrebările științifice la nivel de doctorat măsurate de GPQA Diamond, unde O4-MINI au scăzut din nou ușor O3, ambele demonstrând o îmbunătățire marcată față de predecesorii lor. Atunci când abordează întrebări largi la nivel de expert („Ultimul examen al umanității”), O3 a utilizat Python și instrumentele de navigare a oferit rezultate puternice, în al doilea rând doar unei configurații specializate de cercetare profundă. Modelul O4-MINI, folosind și instrumente, s-a comportat bine, arătând un avantaj distinct față de versiunea sa fără instrumente și modelele mai vechi.

Capabilitățile de codificare și inginerie software

Competența modelelor în codificare și dezvoltarea software a fost testată pe mai multe repere. În ceea ce privește sarcinile de codificare a concurenței CodeForces, O4-MINI (atunci când este asociat cu un instrument terminal) a asigurat cel mai mare rating ELO, urmat îndeaproape de O3 folosind același instrument. Aceste scoruri reprezintă un progres major în comparație cu O3-MINI și O1.

În editarea codului poliglot evaluat de Aider, varianta înaltă O3 a demonstrat cea mai bună precizie generală. În timp ce O4-MINI-HIGH a avut performanțe mai bune decât O1-înalt și O3-MINI-HIGH, acesta a tras O3-HIGH la acest test particular. Pentru sarcinile verificate de inginerie software pe Ben-Bench, O3 a arătat un ușor plumb peste O4-MINI, deși ambele erau clar superioare față de O1 și O3-MINI. O excepție notabilă a avut loc în simularea sarcinilor independente Swe-Lancer, unde modelul mai vechi O1-înalt a generat câștiguri simulate mai mari decât modelele mai noi O3-înalt, O4-Mini-High și O3-Mini-High.

Modelul O4-Mini cu instrumente a demonstrat, de asemenea, competența în navigare, deși scorul său a fost mai mic decât O3 în această configurație. Performanța de apelare a funcției, evaluată prin Tau-Bench, variată în funcție de domeniul sarcinii. Configurația înaltă O3 a excelat în domeniul de vânzare cu amănuntul, în timp ce O1-HIGH a deținut o ușoară margine în domeniul companiei aeriene în comparație cu O3-HIGH și O4-MINI-HIGH. Cu toate acestea, O4-MINI-HIGH a arătat o capacitate de apelare a funcției în general puternică pe ambele domenii în raport cu O3-mini-înalt.

Înțelegerea multimodală

Performanța pe sarcini care necesită înțelegere vizuală a fost, de asemenea, măsurată. Pe mai multe repere multimodale, inclusiv MMMU (rezolvarea problemelor vizuale la nivel de colegiu), Mathvista (raționament de matematică vizuală) și Charxiv-Reazoning (Interpretare științifică a figurii), modelul O3 a obținut în mod constant cele mai mari scoruri de precizie în conformitate cu datele lui Openai. Modelul O4-Mini s-a efectuat aproape la fel de bine, urmând îndeaproape în spatele O3. Atât O3, cât și O4-MINI au marcat o îmbunătățire substanțială față de modelul O1 în aceste capacități de raționament vizual.

eficiența și performanța costurilor

Dincolo de capacitatea brută, datele de referință ale lui OpenAI indică pași semnificative în eficiența modelului. Modelul O4-MINI a oferit în mod constant performanțe mai mari decât O3-MINI pe repere cheie precum AIME 2025 și GPQA Pass@1 pe diferite setări operaționale (scăzute, medii, mari), toate având un cost estimat mai mic de inferență. Un avantaj similar a fost observat pentru O3 în comparație cu O1; O3 a obținut rezultate considerabil mai bune pe aceleași repere, dar la un cost estimat redus pentru setări comparabile. Acest lucru sugerează că progresele din seria O includ nu numai o inteligență mai mare, ci și o eficiență de calcul îmbunătățită.

În general, datele de performanță de la OpenAI indică faptul că O3 stabilește frecvent marcajul cu apă ridicată, în special în operațiunile agentice complexe și sarcinile multimodale. În același timp, O4-MINI se dovedește a fi un model foarte capabil și în special eficient, care se potrivește adesea sau chiar depășesc O3 în raționamentele specifice și codificarea de referință, oferind în același timp economii de costuri semnificative în comparație cu O3-MINI. Ambele modele noi reprezintă un pas clar și substanțial înainte de la ofertele anterioare OpenAI în cele mai multe capabilități testate.

comprimat de testare de siguranță comprimat Preocuparea

OpenAI, lansarea rapidă a OpenAI a Seriei O a ridicat îngrijorări intern și extern. Compania și-a actualizat recent cadrul de pregătire pentru a permite relaxarea anumitor protocoale de siguranță dacă un rival eliberează un model cu risc ridicat fără garanții similare. Compania a scris: „Dacă un alt dezvoltator AI de frontieră eliberează un sistem cu risc ridicat, fără garanții comparabile, ne putem ajusta cerințele. El a adăugat că automatizarea a permis evaluări mai rapide de siguranță.

Un domeniu de îngrijorare este alegerea lui Openai de a testa punctele de control intermediare ale modelelor, mai degrabă decât versiunile finale. Un fost angajat a avertizat: „Este o practică proastă să eliberați un model diferit de cel pe care l-ați evaluat. DeepMind a propus un cadru global de siguranță AGI la începutul lunii aprilie, în timp ce Antropic a lansat un set de instrumente de interpretare pentru a face mai transparent decizia lui Claude. Cu toate acestea, ambele companii s-au confruntat cu un control-activ pentru eliminarea angajamentelor de politică publică și DeepMind pentru oferirea de detalii de aplicare limitate.

OpenAI, în schimb, se încarcă în fața capacităților care își apropie modelele de a fi actori independenți în cadrul sistemului. Modelele O3 și O4-MINI nu sunt doar mai inteligente-acționează pe propria lor judecată.

concurența împinge capacitățile agentului înainte

Strategia lui Openai se joacă împotriva unui peisaj competitiv în care rivalii fac curse și pentru a defini viitorul raționamentului AI. Microsoft a integrat deja modelul O3-Mini-înalt în nivelul său de copilot gratuit. Mai recent, compania a lansat o caracteristică a Copilot Studio care permite agenților AI să interacționeze direct cu aplicațiile desktop și paginile web. Acești agenți pot simula acțiuni ale utilizatorului, cum ar fi clic pe butoane sau introducerea de date-în special util atunci când API-urile nu sunt disponibile.

Între timp, linia model GPT-4.1 a lui OpenAI, lansată pe 14 aprilie, a fost pusă la dispoziție exclusiv prin API. Această linie este optimizată pentru codificarea, prompturile de context lung și urmărirea instrucțiunilor, dar nu are utilizarea autonomă a instrumentelor-evidentând strategia de segmentare a lui OpenAI între modelele GPT și seria O.

de la Assistant to Agent

cu eliberarea de o3 și O4-mini, chatgpt a intrat în faza nouă. Modelele nu produc doar răspunsuri-planifică, rațiune și aleg cum să acționeze. Indiferent dacă analizează o lucrare științifică, codul de depanare sau ajustarea unei imagini, aceste modele pot decide acum ce pași trebuie să faceți fără a aștepta instrucțiuni.

OpenAI numește acesta începutul comportamentului asemănător agentului. Dar sistemele de agenți ridică și noi îngrijorări: cât de transparent este raționamentul lor? Ce se întâmplă când fac un apel rău sau folosesc greșit un instrument? Aceste întrebări nu mai sunt teoretice. Pe măsură ce O3 și O4-Mini se transformă la milioane de utilizatori, performanța din lumea reală-și responsabilitatea-sunt pe cale să fie testate.

Categories: IT Info