Openais nye modeller-O3 og O4-mini-markerer et skarpt skifte i hva Chatgpt kan gjøre uten å bli fortalt. For første gang svarer ikke bare systemet på spørsmål-det kan bestemme, planlegge og handle. Disse modellene kan velge hvilke interne verktøy som skal brukes-enten det er surfing, fillesing, kodeutførelse eller bildegenerering-og initierer disse handlingene uavhengig. Openai beskriver dette som det første trinnet mot”tidlig agentatferd.”
Fra midten av april er begge modellene aktive for ChatGPT Plus, Team og Enterprise-brukere. De erstatter tidligere modeller som O1 og O3-mini og er tilgjengelige for brukere med tilgang til verktøy. Selskapet uttaler at disse modellene nå uavhengig kan bestemme hvilke verktøy de skal bruke og når, uten brukerhjuling.
Denne autonomien lar ChatGPT operere mer som en assistent som forstår intensjon og tar initiativ. For eksempel kan en bruker laste opp en kompleks fil og ganske enkelt be om”et sammendrag av viktige problemer.”Modellen vil deretter finne ut om du vil bruke filverktøyet, kodetolk eller nettleser-og utføre disse trinnene i seg selv.
[innebygd innhold]
resonnement, minne og visuell intelligens
O3-modellen ble opprinnelig forhåndsvisning i desember 2024 og senere prioritert over GPT-5 etter Openais strategi skiftet i begynnelsen av april. Openai skiftet strategi i begynnelsen av april for å skille resonnement og fullføringsmodelllinjer etter å ha planlagt å slå sammen O3-evner til GPT-5.
I tillegg til tekst og kode, kan de nye modellene behandle og fornuft over bilder. De støtter funksjoner som å zoome, rotere og tolke visuelle elementer-en evne som er bygget på toppen av GPT-4O-oppdateringen som la til maling og bildedigering til ChatGPT i mars 2025.
Utgivelsen av O3 og O4-mini ble tidsbestemt sammen med en overhaling av Chatgpts minnekapasiteter. 11. april aktiverte Openai en”tilbakekalling”-funksjon som lar modellen referere til fakta, instruksjoner eller preferanser fra tidligere samtaler på tvers av stemme, tekst og bilde. Dette systemet støtter både lagrede minner og implisitte referanser til chathistorikk.
Altman kalte oppgraderingen “en overraskende flott funksjon… det peker på noe vi er begeistret for: AI-systemer som blir kjent med deg over livet ditt, og blir ekstremt nyttig og personlig.”
for å resonnere modeller som O3. En bruker kan for eksempel be Chatgpt om å spore forskningstemaer over flere PDF-er, og modellen vil kunne huske tidligere sammendrag og sy sammen relevant innsikt Ulike domener, som fremhever styrkene sine i forhold til hverandre og tidligere modeller.
I vurderinger av resonnementsevne viser de nye modellene betydelige gevinster. For krevende konkurransematematikkevalueringer som AIME 2024 og 2025 (testet uten verktøyhjelp) oppnådde O4-mini den høyeste nøyaktigheten, og smalt ledende O3. Begge modellene overgikk vesentlig de tidligere O1-og O3-min-versjonene.
Dette mønsteret som ble holdt for vitenskapelige spørsmål på ph. Når du takler brede spørsmål om ekspertnivå (“Humanity’s Last Exam”), leverte O3 Python og surfeveddeler sterke resultater, bare nest etter en spesialisert dyp forskningskonfigurasjon. O4-mini-modellen, også ved hjelp av verktøy, utførte godt, og viser en tydelig fordel i forhold til sin verktøyfri versjon og eldre modeller.
koding og programvareingeniørfunksjoner
Modellenes dyktighet i koding og programvareutvikling ble testet på tvers av flere benchmarks. På CodeForces-konkurransekodingsoppgaver sikret O4-mini (når de er sammenkoblet med et terminalverktøy) den høyeste ELO-rangering, tett fulgt av O3 ved å bruke det samme verktøyet. Disse score representerer et stort fremskritt sammenlignet med O3-mini og O1.
I polyglot-kodedigering vurdert av Aider, demonstrerte O3-High-varianten den beste generelle nøyaktigheten. Mens O4-mini-høy presterte bedre enn O1-høy og O3-mini-høy, fulgte den O3-høy på denne spesielle testen. For verifiserte programvaretekniske oppgaver på SWE-Bench, viste O3 en liten ledelse over O4-mini, selv om begge tydelig var overlegne O1 og O3-mini. Et bemerkelsesverdig unntak skjedde i Swe-Lancer-frilansoppgavens simulering, der den eldre O1-høye modellen genererte høyere simulert inntjening enn den nyere O3-høye, O4-mini-høye og O3-mini-høye modeller.
Agentiske ferdigheter: Instruksjon Følgende, verktøybruk og funksjonsanrop
De forbedrede agentiske funksjonalitetene til de nye modellene ble reflektert i spesifikke tester. På skalaen MultiChallenge for Multi-sving-instruksjon etterfølgende, oppnådde O3 toppscore, foran O1, O4-mini og O3-mini. I Agentic nettlesingstester (BrowseComp), viste O3 ved bruk av Python og surfing høy nøyaktighet, og overgikk O1-kapasiteten betydelig.
O4-mini-modellen med verktøy demonstrerte også kompetanse i surfing, selv om poengsummen var lavere enn O3 i dette oppsettet. Funksjonsanropytelse, evaluert via Tau-Bench, variert etter oppgavedomene. Den O3-høye konfigurasjonen utmerket seg i detaljhandelsdomenet, mens O1-High hadde en liten kant i flyselskapet sammenlignet med O3-høy og O4-mini-høy. Likevel viste O4-mini-høy generelt sterk funksjonsanropsevne på begge domenene i forhold til O3-mini-høy.
Multimodal forståelse
ytelse på oppgaver som krever visuell forståelse ble også målt. Over flere multimodale benchmarks, inkludert MMMU (visuell problemløsing på høyskolenivå), Mathvista (visuell matematikkresonnement), og Charxiv-Reseasoning (vitenskapelig figurtolkning), oppnådde O3-modellen konsekvent de høyeste nøyaktighetspoengene i henhold til Openais data. O4-mini-modellen presterte nesten like bra, og fulgte tett bak O3. Både O3 og O4-mini markerte en betydelig forbedring i forhold til O1-modellen i disse visuelle resonnementfunksjonene.
Effektivitet og kostnadsytelse
Utover råvne, indikerer Openais referanseindata betydelige fremskritt i modelleffektiviteten. O4-minimodellen leverte konsekvent høyere ytelse enn O3-mini på viktige benchmarks som AIME 2025 og GPQA pass@1 på tvers av forskjellige driftsinnstillinger (lav, middels, høy), alt sammen med en lavere estimert inferenskostnad. En lignende fordel ble sett for O3 sammenlignet med O1; O3 oppnådde betydelig bedre resultater på de samme målene, men til en redusert estimert kostnad for sammenlignbare innstillinger. Dette antyder at fremskritt av O-serien ikke bare inkluderer større intelligens, men også forbedret beregningseffektivitet.
Totalt sett indikerer ytelsesdataene fra Openai at O3 ofte setter høyvannsmerket, spesielt i komplekse agentiske operasjoner og multimodale oppgaver. Samtidig viser O4-mini seg å være en veldig dyktig og spesielt effektiv modell, ofte matchende eller til og med overskride O3 i spesifikke resonnement og kodende benchmarks, samtidig som de tilbyr betydelige kostnadsbesparelser sammenlignet med O3-mini. Begge nye modellene representerer et klart og betydelig skritt fremover fra tidligere Openai-tilbud på tvers av de fleste testede evner.
komprimert sikkerhetstesting Sparks bekymring
Openais raske rulling av O-serien har reist bekymringer internt og eksternt. Selskapet oppdaterte nylig sine beredskapsrammer for å tillate å slappe av visse sikkerhetsprotokoller hvis en rival frigjør en høyrisiko modell uten lignende sikkerhetstiltak. Selskapet skrev:”Hvis en annen Frontier AI-utvikler slipper et høyrisikosystem uten sammenlignbare sikkerhetstiltak, kan vi justere kravene våre.”
Dette kom midt i rapporter om at intern testing for O3 hadde blitt komprimert fra flere måneder til mindre enn en uke.
Johannes Heidecke, Openai-sjef for sikkerhetssystemer. er.”Han la til at automatisering hadde tillatt raskere sikkerhetsevalueringer.
Et bekymringsområde er Openais valg om å teste mellomliggende sjekkpunkter av modeller i stedet for endelige versjoner. En tidligere ansatt advarte:”Det er dårlig praksis å gi ut en modell som er forskjellig fra den du evaluerte.”
Det oppdaterte rammeverket introduserte også nye sporede og forskningskategorier for å overvåke risikoer som autonom replikering, manipulering av tilsyn og langhorisonplanlegging.
Google DeepMind og Anthropic har tatt mer horison. DeepMind foreslo et globalt AGI-sikkerhetsrammeverk i begynnelsen av april, mens Anthropic ga ut et tolkbarhetsverktøysett for å gjøre Claude beslutninger mer gjennomsiktig. Imidlertid har begge selskapene møtt granskning-antropisk for å fjerne offentlige politiske forpliktelser, og DeepMind for å tilby begrensede håndhevingsdetaljer.
Openai, derimot, belaster fremgangsmuligheter som setter sine modeller nærmere å være uavhengige aktører i systemet. O3 og O4-mini-modellene er ikke bare smartere-de opptrer på sin egen vurdering.
konkurranse presser agentfunksjoner fremover
Openais strategi spiller ut mot et konkurransedyktig landskap der rivaler også kjører for å definere fremtiden for å resonnere AI. Microsoft har allerede integrert O3-mini-høye modellen i sin gratis Copilot-nivå. Nylig lanserte selskapet en funksjon i Copilot Studio som lar AI-agenter samhandle direkte med stasjonære apper og websider. Disse agentene kan simulere brukerhandlinger som å klikke på knapper eller legge inn data-spesielt nyttige når API-er ikke er tilgjengelige.
I mellomtiden ble Openais GPT-4.1 modelllinje, lansert 14. april, gjort tilgjengelig utelukkende via API. Denne linjen er optimalisert for koding, lang kontekst og instruksjoner som følger, men mangler autonomt verktøybruk-først og fremst å fremheve Openais segmenteringsstrategi mellom GPT-modeller og O-serien.
fra assistent til agent
med en ny fase. Modellene gir ikke bare svar-de planlegger, grunn og velger hvordan de skal handle. Enten det er å analysere en vitenskapelig artikkel, feilsøke kode eller justere et bilde, kan disse modellene nå bestemme hvilke skritt som skal tar uten å vente på instruksjoner.
Openai kaller dette begynnelsen på agentlignende oppførsel. Men agentsystemer reiser også nye bekymringer: hvor gjennomsiktig er deres resonnement? Hva skjer når de ringer en dårlig samtale eller misbruker et verktøy? Disse spørsmålene er ikke lenger teoretiske. Når O3 og O4-mini ruller ut til millioner av brukere, er ytelse i den virkelige verden-og ansvarlighet-i ferd med å bli testet.