A
Openai új modelljei-O3 és O4-mini-éles változást jelölnek abban, amit a Chatgpt megtehetne anélkül, hogy elmondják. A rendszer először nemcsak a utasításokra válaszol, hanem dönthet, tervez és cselekszik. Ezek a modellek kiválaszthatják, hogy mely belső eszközöket kell használni-akár böngészés, fájlolvasás, kód végrehajtás vagy képgeneráció-, és ezeket a műveleteket önállóan kezdeményezheti. Az Openai ezt az első lépésként írja le a „korai ügynöki viselkedés” felé. Kihelyezik a korábbi modelleket, mint például az O1 és az O3-MINI, és a felhasználók számára elérhetőek az eszközökhöz. A vállalat kimondja, hogy ezek a modellek most függetlenül eldönthetik, hogy mely eszközöket kell használni, és mikor, a felhasználói kérés nélkül. Például egy felhasználó feltölthet egy összetett fájlt, és egyszerűen csak „a legfontosabb kérdések összefoglalását” kérheti. A modell ezután kitalálja, hogy használja-e a fájlszerszámot, a kód tolmácsot vagy a böngészőt-és önmagában végrehajtja-e ezeket a lépéseket. src=”adatok: image/svg+xml; nitro-üres-id=mtcxotoxnJk2-1; base64, phn2zyb2awv3qm94psiwidagmtaynca5md Qiihdpzhropsixmdi0iibozwlnahq9ijkwncigeg1sbnm9imh0dha6lyy93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>”>”>”>”>”>”>”>”>”> [Beágyazott tartalom]
érvelés, memória és vizuális intelligencia
Az O3 modellt kezdetben 2024 decemberében megtekintették, majd később a GPT-5-rel prioritást élveztek, miután az Openai stratégiája április elején elmozdult. Az Openai április elején elmozdította a stratégiát, hogy elválasztja az érvelési és befejezési modellvonalakat, miután kezdetben azt tervezte, hogy az O3 képességeket a GPT-5-re egyesíti. Támogatják az olyan funkciókat, mint a nagyítás, a forgatás és a vizuális elemek értelmezése-a GPT-4O frissítés tetejére épített képesség, amely 2025 márciusában hozzáadta a festést és a képszerkesztést a CHATGPT-hez. Április 11-én az OpenAi aktiválta a „visszahívási” funkciót, amely lehetővé teszi a modell számára, hogy a tények, utasítások vagy preferenciák hivatkozzon a korábbi beszélgetésekből a hang, a szöveg és a kép között. Ez a rendszer támogatja mind a mentett emlékeket, mind az implicit hivatkozásokat a csevegési előzményekre. A felhasználó például megkérheti a CHATGPT-t, hogy nyomon kövesse a kutatási témákat több PDF-en keresztül, és a modell képes lesz visszahívni a korábbi összefoglalókat és a releváns betekintést automatikusan összevarrni. Az O4-Mini modellek különböző területeken, kiemelve erősségeiket egymáshoz és a korábbi modellekhez viszonyítva.
Az érvelési képesség értékelésében az új modellek jelentős nyereséget mutatnak. A versenymatematikai értékelésekhez, mint például az AIME 2024 és 2025 (szerszámtámogatás nélkül), az O4-MINI elérte a legnagyobb pontosságot, szűk vezető O3-t. Mindkét modell lényegesen felülmúlta a korábbi O1 és O3-mini verziókat. Amikor a széles szakértői szintű kérdésekkel foglalkozik („Az emberiség utolsó vizsga”), az O3 kihasználva a Python és a böngészési eszközöket erős eredményeket eredményezett, csak egy speciális mély kutatási konfigurációval. Az O4-Mini modell, amely szintén eszközöket használ, jól teljesített, és megkülönböztetett előnyt mutat a szerszám nélküli verzió és a régebbi modellekhez képest. A CodeForces versenykódolási feladatokon az O4-MINI (ha párosítva egy terminál eszközzel) biztosította a legmagasabb ELO-besorolást, amelyet az O3 szorosan követ, ugyanazt az eszközt. Ezek a pontszámok jelentős előrelépést jelentenek az O3-MINI-hez és az O1-hez képest. Míg az O4-Mini-High jobban teljesített, mint az O1-High és az O3-Mini-High, addig az O3-High-t vezette ezen a teszten. A Swe-Padon lévő ellenőrzött szoftverfejlesztési feladatokhoz az O3 enyhe vezetést mutatott az O4-MINI felett, bár mindkettő egyértelműen jobb volt, mint az O1 és az O3-MINI. Figyelemre méltó kivétel fordult elő a SWE-Lancer szabadúszó feladat szimulációjában, ahol az idősebb O1-magas modell magasabb szimulált jövedelmet generált, mint az újabb O3-magas, O4-mini-magas és O3-mini-magas modellek. src=”adatok: image/svg+xml; nitro-üres-id=mtczoto5njq=-1; base64, phn2zyb2awv3qm94psiwidagnzu1iduww OSIGD2LKDGG9IJC1NSIGAGVPZ2H0PSI1MDKIIHHTBG5ZPSJODHRWOI8VD3D3D3LNCZLM9YY8YMDAWL3N2ZYI+PC9ZDMC+”>”>”>”>”>”>”>
Agentikus készségek: Az utasítások, a szerszámhasználat és a funkcióhívás
Az új modellek továbbfejlesztett ági funkciói tükröződtek az egyes tesztekben. A többciklusú, a több fordulószámú oktatáshoz az O3 elérte az O1 pontszámot, az O1, O4-MINI és O3-MINI előtt. Az ügynöki böngészési tesztekben (Browsecomp) a Python és a böngészés felhasználásával az O3 nagy pontosságot mutatott, jelentősen meghaladva az O1 képességét. src=”adatok: image/svg+xml; nitro-üres-id=mtc1mto4mtq=-1; base64, phn2zyb2awv3qm94psiwidagnjm1idu1 Niigd2lkdg9ijyznsigagvpz2h0psi1ntyiihhtbg5zpsjodhrwoi8vd3d3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>”>”>”>”>”>
Az O4-Mini modell eszközökkel szintén bebizonyította a böngészés kompetenciáját, bár pontszáma alacsonyabb volt, mint az O3-ban ebben a beállításban. A Tau-Sench-en keresztül értékelt funkcióhívási teljesítmény, a feladattartományonként változik. Az O3-magas konfiguráció kiemelkedett a kiskereskedelmi tartományban, míg az O1-HIGH enyhe előnyt tartott a légitársaság tartományában, mint az O3-High és az O4-Mini-High. Ennek ellenére az O4-Mini-High általában erős funkcióhívási képességet mutatott mindkét doménben az O3-mini-magas szinthez viszonyítva. Számos multimodális referenciaérték, beleértve az MMMU (főiskolai szintű vizuális problémamegoldás), a MathVista (Visual Math Indocing) és a Charxiv-indokálás (tudományos figurák értelmezése), az O3 modell következetesen a legnagyobb pontossági pontszámokat érte el az OpenAi adatai szerint. Az O4-Mini modell majdnem ugyanolyan jól teljesített, szorosan követve az O3 mögött. Mind az O3, mind az O4-mini jelentős javulást jelentett az O1 modellhez képest ezekben a vizuális érvelési képességekben. src=”adatok: image/svg+xml; nitro-üres-id=mtc2nzoxnjm3-1; base64, phn2zyb2awv3qm94psiwidagmtaynca5oD ciihdpzhropsixmdi0iibozwlnahq9ijk4nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2z4=”>”>”>”>”>”>”>”>”>”>”>”>”>”>
Hatékonyság és költségteljesítmény
A nyers képességeken túl az Openai referencia-adatai a modell hatékonyságának jelentős lépéseit jelzik. Az O4-Mini modell következetesen magasabb teljesítményt nyújtott, mint az O3-MINI-nál a kulcsfontosságú referenciaértékeknél, mint például az AIME 2025 és a GPQA Pass@1 a különböző működési beállításokon (alacsony, közepes, magas), mindeközben alacsonyabb becsült következtetési költségekkel. Hasonló előnye volt az O3-hoz képest az O1-hez képest; Az O3 ugyanazon referenciaértékeknél jelentősen jobb eredményeket ért el, de az összehasonlítható beállítások becsült becsült költségén. Ez azt sugallja, hogy az O-sorozat előrelépései nemcsak a nagyobb intelligenciát, hanem a jobb számítási hatékonyságot is magukban foglalják. src=”adatok: image/svg+xml; nitro-üres-id=mtc3otoxmtq0-1; base64, phn2zyb2awv3qm94psiwidagmtaynca2md Eiihdpzhropsixmdi0iibozwlnahq9ijywmsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2z4=”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>”> Az OpenAI teljesítményadatainak összességében azt jelzi, hogy az O3 gyakran állítja be a magas vízjelet, különösen a komplex ügynöki műveletekben és a multimodális feladatokban. Ezzel egyidejűleg az O4-MINI nagyon képes és jelentősen hatékony modellnek bizonyul, gyakran megfelel vagy akár meghaladja az O3-t a meghatározott érvelés és kódolási referenciaértékek során, miközben jelentős költségmegtakarítást kínál az O3-MINI-hez képest. Mindkét új modell egyértelmű és jelentős előrelépést képvisel a korábbi Openai-kínálathoz képest a legtöbb tesztelt képességben. A vállalat nemrégiben frissítette felkészültségi keretét, hogy lehetővé tegye bizonyos biztonsági protokollok pihenését, ha egy rivális nagy kockázatú modellt bocsát ki hasonló biztosítékok nélkül. A társaság azt írta: „Ha egy másik Frontier AI Developer nagy kockázatú rendszert bocsát ki összehasonlítható biztosítékok nélkül, akkor módosíthatjuk követelményeinket.”
Ez a jelentések közepette jelentkezett, hogy az O3 belső tesztelése több hónapról egy hétre tömörített. Hozzátette, hogy az automatizálás lehetővé tette a gyorsabb biztonsági értékeléseket. Egy volt alkalmazott figyelmeztette: „Rossz gyakorlat egy olyan modell kiadása, amely különbözik az általad értékeltől.”
A frissített keret új, nyomon követett és kutatási kategóriákat is bevezetett a kockázatok, például az autonóm replikáció, a felügyelet manipulációjának és a hosszú horizont tervezésének figyelemmel kísérésére. A DeepMind április elején javasolta a globális AGI biztonsági keretet, míg az Antropic kiadta az értelmezhetőség eszközkészletét, hogy Claude döntéshozatalát átláthatóbbá tegye. Mindkét vállalat azonban ellenőrzéssel szembesült-a közpolitikai kötelezettségvállalások megszüntetése érdekében, és a DeepMind korlátozott végrehajtási részletek kínálatáért. Az O3 és az O4-Mini modellek nem csak okosabbak-a saját megítélésük alapján cselekszenek. A Microsoft már integrálta az O3-mini-magas modellt az ingyenes Copilot szintjébe. A közelmúltban a vállalat elindította a Copilot Studio egyik funkcióját, amely lehetővé teszi az AI ügynökök számára, hogy közvetlenül kölcsönhatásba lépjenek az asztali alkalmazásokkal és a weboldalakkal. Ezek az ügynökök szimulálhatják a felhasználói műveleteket, mint például a gombok kattintása vagy az adatok megadása-különösen akkor hasznos, ha az API-k nem állnak rendelkezésre. Ezt a sort a kódoláshoz, a hosszú kontextusos utasításokhoz és az utasítások követéséhez optimalizálva, de hiányzik az autonóm szerszámhasználat-ezáltal kiemelve az Openai szegmentációs stratégiáját a GPT modellek és az O-sorozat között. A modellek nem csak válaszokat adnak-terveznek, okokat, és választják meg, hogyan kell cselekedni. Akár egy tudományos papír elemzését, hibakeresési kódot, vagy egy kép beállítását, ezek a modellek eldönthetik, hogy milyen lépéseket kell tenni az utasítások várása nélkül. De az ügynöki rendszerek új aggályokat is felvetnek: Mennyire átlátható az érvelésük? Mi történik, ha rossz hívást kezdeményeznek, vagy visszaélnek egy szerszámmal? Ezek a kérdések már nem elméletiek. Ahogy az O3 és az O4-Mini felhasználók millióinak gurul, a valós teljesítményt-és az elszámoltathatóságot-tesztelni kell.