De nieuwe modellen van Openai-O3 en O4-Mini-maken een scherpe verschuiving in wat Chatgpt kan doen zonder te worden verteld. Voor het eerst reageert het systeem niet alleen op prompts-het kan beslissen, plannen en handelen. Deze modellen kunnen kiezen welke interne tools ze moeten gebruiken-of dat nu doorbladeren, bestandslezen, code-uitvoering of beeldgeneratie is-en deze acties onafhankelijk initiëren. Openai beschrijft dit als de eerste stap in de richting van”vroeg agentisch gedrag.”
Vanaf half april zijn beide modellen actief voor Chatgpt Plus, Team-en Enterprise-gebruikers. Ze vervangen eerdere modellen zoals O1 en O3-Mini en zijn beschikbaar voor gebruikers met toegang tot tools. Het bedrijf stelt dat deze modellen nu onafhankelijk kunnen beslissen welke tools ze moeten gebruiken en wanneer, zonder de gebruiker die wordt aangevraagd.
Met deze autonomie kan chatgpt meer werken als een assistent die intentie begrijpt en initiatief neemt. Een gebruiker kan bijvoorbeeld een complex bestand uploaden en gewoon vragen om”een samenvatting van belangrijke problemen.”Het model zal er vervolgens achter komen of het bestandstool, de codetolk of de browser moet worden gebruikt-en die stappen zelf uitvoeren.
[ingebedde inhoud]
redeneren, geheugen en visuele intelligentie
Het O3-model werd aanvankelijk in december 2024 bekeken en later prioriteit gegeven aan GPT-5 nadat de strategie van Openai begin april verschoof. OpenAI verschoof begin april de strategie om de redenering en voltooiingsmodelregels te scheiden na aanvankelijk van plan te zijn om O3-mogelijkheden samen te voegen in GPT-5.
Naast tekst en code kunnen de nieuwe modellen over afbeeldingen verwerken en redeneren. Ze ondersteunen functies zoals het zoomen, roteren en interpreteren van visuele elementen-een mogelijkheden die bovenop de GPT-4O-update is gebouwd die in maart 2025 inpakket en beeldbewerking toevoegden aan Chatgpt. Op 11 april activeerde OpenAI een”terugroep”-functie waarmee het model verwijst naar feiten, instructies of voorkeuren uit eerdere gesprekken over spraak, tekst en afbeelding. Dit systeem ondersteunt zowel opgeslagen herinneringen als impliciete referenties naar de chatgeschiedenis.
Altman noemde de upgrade”Een verrassend geweldige functie… het wijst op iets waar we enthousiast over zijn: AI-systemen die je leren kennen over je leven, en extreem nuttig en gepersonaliseerd worden. Een gebruiker kan bijvoorbeeld chatgpt vragen om onderzoeksthema’s te volgen over verschillende PDF’s, en het model zou in staat zijn om eerdere samenvattingen te herinneren en automatisch relevante inzichten samen te varen.
o3 en o4-mini prestaties en benchmarks
Bankmark Resultaten Resultaat Resultaten van de capabilitaire van de capabilities Over verschillende domeinen, die hun sterke punten ten opzichte van elkaar en eerdere modellen benadrukt.
In beoordelingen van redeneervermogen vertonen de nieuwe modellen aanzienlijke winst. Voor veeleisende concurrentie Wiskunde-evaluaties zoals AIME 2024 en 2025 (getest zonder hulpmiddelenhulp), bereikte O4-Mini de hoogste nauwkeurigheid, nauw leidend O3. Beide modellen presteerden aanzienlijk beter dan de eerdere O1-en O3-Mini-versies.
Dit patroon dat werd gehouden voor science-niveau wetenschapsvragen gemeten door GPQA Diamond, waar O4-Mini opnieuw enigszins uit O3 werd uitgesneden, met beide een duidelijke verbetering ten opzichte van hun voorgangers. Bij het aanpakken van brede vragen op expertniveau (“Humanity’s Last Exam”), leverden O3 gebruik van Python-en browsetools sterke resultaten, de tweede alleen voor een gespecialiseerde diepe onderzoeksconfiguratie. Het O4-Mini-model, ook met behulp van tools, presteerde goed en toonde een duidelijk voordeel ten opzichte van de gereedschaploze versie en oudere modellen.
codering en software engineering mogelijkheden
De vaardigheid van de modellen in codering en softwareontwikkeling werd getest in verschillende benchmarks. Op CodeForces-concurrentiecodeertaken behaalde O4-Mini (in combinatie met een terminalgereedschap) de hoogste ELO-beoordeling, op de voet gevolgd door O3 met behulp van hetzelfde hulpmiddel. Deze scores vormen een belangrijke vooruitgang in vergelijking met O3-Mini en O1.
In Polyglot Code Bewerking beoordeeld door Aider, toonde de O3-High-variant de beste algehele nauwkeurigheid. Terwijl O4-Mini-High beter presteerde dan O1-high en o3-mini-high, volgde het O3-high op deze specifieke test. Voor geverifieerde software-engineeringtaken op SWE-Bench vertoonde O3 een lichte voorsprong op O4-Mini, hoewel beide duidelijk superieur waren aan O1 en O3-mini. Een opmerkelijke uitzondering vond plaats in de SWE-Lancer freelance taaksimulatie, waarbij het oudere O1-High-model hogere gesimuleerde inkomsten genereerde dan de nieuwere O3-Hoog, O4-Mini-High en O3-Mini-High-modellen.
Agentische vaardigheden: instructie volgen, gereedschapsgebruik en functieaanroepen
De verbeterde agentische functionaliteiten van de nieuwe modellen werden weerspiegeld in specifieke tests. Op de schaal multichallenge voor volgende multi-turn-instructie behaalde O3 de topscore, vóór O1, O4-Mini en O3-Mini. In Agentic Web Browsing Tests (browsecomp) vertoonde O3 met behulp van python en browsen hoge nauwkeurigheid, wat de mogelijkheden van O1 aanzienlijk overtreft.
Het O4-Mini-model met tools toonde ook de competentie in het browsen, hoewel de score lager was dan O3’s in deze opstelling. Functieaanroepende prestaties, geëvalueerd via Tau-Bench, gevarieerd per taakdomein. De O3-hoge configuratie blonk uit in het retaildomein, terwijl O1-High een lichte voorsprong had in het luchtvaartdomein vergeleken met O3-high en o4-mini-high. Desalniettemin vertoonde O4-Mini-High over het algemeen sterke functie-oproepvermogen over beide domeinen ten opzichte van O3-Mini-High.
Multimodaal begrip
prestaties op taken die visueel begrip vereisen, werden ook gemeten. Over verschillende multimodale benchmarks, waaronder MMMU (visuele probleemoplossing op college-niveau), Mathvista (Visual Math Reasoning) en Charxiv-Redding (Scientific Figuur Interpretation), behaalde het O3-model consequent de hoogste nauwkeurigheidsscores volgens de gegevens van Openai. Het O4-Mini-model presteerde bijna net zo goed, op de voet achter O3. Zowel O3 als O4-Mini markeerden een substantiële verbetering ten opzichte van het O1-model in deze visuele redeneermogelijkheden.
Efficiëntie en kostenprestaties
Naast ruwe capaciteit geven de benchmarkgegevens van OpenAI aanzienlijke stappen aan in modelefficiëntie. Het O4-Mini-model leverde consequent hogere prestaties dan O3-Mini op belangrijke benchmarks zoals AIME 2025 en GPQA Pass@1 over verschillende operationele instellingen (laag, medium, hoog), allemaal terwijl een lagere geschatte inferentiekosten. Een soortgelijk voordeel werd waargenomen voor O3 vergeleken met O1; O3 behaalde aanzienlijk betere resultaten op dezelfde benchmarks, maar tegen een lagere geschatte kosten voor vergelijkbare instellingen. Dit suggereert dat de O-serie-vooruitgang niet alleen grotere intelligentie omvat, maar ook verbeterde computationele efficiëntie.
Over het algemeen geven de prestatiegegevens van OpenAI aan dat O3 vaak het hoogwatermarkering bepaalt, met name in complexe agentische bewerkingen en multimodale taken. Tegelijkertijd blijkt O4-Mini een zeer capabel en met name efficiënt model te zijn, vaak overeenkomende of zelfs het overschrijden van O3 in specifieke redenering en coderende benchmarks, terwijl aanzienlijke kostenbesparingen bieden in vergelijking met O3-Mini. Beide nieuwe modellen vertegenwoordigen een duidelijke en substantiële stap voorwaarts van eerdere OpenAI-aanbiedingen in de meeste geteste mogelijkheden.
gecomprimeerde veiligheidstests Sparks Concern
De snelle uitrol van de O-serie heeft de bezorgdheid intern en extern bezorgd gemaakt. Het bedrijf heeft onlangs zijn paraatheidskader bijgewerkt om bepaalde veiligheidsprotocollen mogelijk te maken als een rivaal een risicovolle model vrijgeeft zonder vergelijkbare waarborgen. Het bedrijf schreef:”Als een andere GRATIER AI-ontwikkelaar een risicovolle systeem vrijgeeft zonder vergelijkbare waarborgen, kunnen we onze vereisten aanpassen.”
Dit kwam te midden van rapporten dat interne testen voor O3 waren gecomprimeerd van enkele maanden tot minder dan een week. Zijn.”Hij voegde eraan toe dat automatisering snellere veiligheidsevaluaties had toegestaan.
Een punt van zorg is de keuze van Openai om tussenliggende controlepunten van modellen in plaats van uiteindelijke versies te testen. Een voormalige werknemer waarschuwde:”Het is een slechte praktijk om een model uit te brengen dat verschilt van het model dat u hebt geëvalueerd.”
Het bijgewerkte framework introduceerde ook nieuwe bijgehouden en onderzoekscategorieën om risico’s te volgen, zoals autonome replicatie, manipulatie van toezicht en langhorizonplanning.
Google Deepmind en Antropic hebben meer cautious-benaderingen gekregen. DeepMind stelde begin april een wereldwijd AGI-veiligheidskader voor, terwijl Anthropic een interpreteerbaarheidstoolkit uitbracht om de besluitvorming van Claude transparanter te maken. Beide bedrijven hebben echter geconfronteerd met controle-antropisch voor het verwijderen van openbare beleidsverplichtingen en DeepMind voor het aanbieden van beperkte handhavingsdetails.
Openai is daarentegen doorgegaan met capaciteiten die zijn modellen dichter bij het zijn van onafhankelijke acteurs binnen het systeem. De O3-en O4-Mini-modellen zijn niet alleen slimmer-ze handelen naar hun eigen oordeel.
concurrentie duwt agentcapaciteiten vooruit
De strategie van Openai speelt zich af tegen een competitief landschap waar rivals ook racen om de toekomst van redeneren te definiëren. Microsoft heeft het O3-Mini-High-model al geïntegreerd in zijn gratis Copilot-laag. Meer recent heeft het bedrijf een functie van Copilot Studio gelanceerd waarmee AI-agenten rechtstreeks kunnen communiceren met desktop-apps en webpagina’s. Deze agenten kunnen gebruikersacties simuleren, zoals klikknoppen of het invoeren van gegevens-vooral nuttig wanneer API’s niet beschikbaar zijn.
Ondertussen werd de GPT-4.1-modellijn van OpenAI, gelanceerd op 14 april, exclusief beschikbaar via API. Die regel is geoptimaliseerd voor codering, lange-contextprompts en instructie-volgen, maar mist autonoom gereedschapsgebruik-wat de segmentatiestrategie van OpenAI tussen GPT-modellen en de O-serie markeert.
van assistent tot agent
met de release van O3 en O4-Mini, Chatgpt heeft een nieuwe fase ingevoerd. De modellen produceren niet alleen antwoorden-ze plannen, reden en kiezen hoe te handelen. Of het nu gaat om het ontleden van een wetenschappelijk artikel, foutopsporingscode of het aanpassen van een afbeelding, deze modellen kunnen nu beslissen welke stappen ze moeten nemen zonder te wachten op instructies.
Openai noemt dit het begin van agentachtig gedrag. Maar agentsystemen wekken ook nieuwe zorgen: hoe transparant is hun redenering? Wat gebeurt er als ze een slechte oproep doen of een tool misbruiken? Deze vragen zijn niet langer theoretisch. Terwijl O3 en O4-Mini uitrollen voor miljoenen gebruikers, staan de praktische prestaties-en verantwoordelijkheid-op het punt te worden getest.