Modelet e reja të Openai-O3 dhe O4-MINI-tregojnë një zhvendosje të mprehtë në atë që mund të bëjë Chatgpt pa u thënë. Për herë të parë, sistemi nuk i përgjigjet vetëm kërkesave-mund të vendosë, planifikojë dhe veprojë. Këto modele mund të zgjedhin se cilat mjete të brendshme për të përdorur-qoftë ajo që po shfleton, leximin e skedarëve, ekzekutimin e kodit ose gjenerimin e imazhit-dhe i inicojnë ato veprime në mënyrë të pavarur. Openai e përshkruan këtë si hapin e parë drejt”sjelljes së hershme agjentike.”Ata po zëvendësojnë modelet e mëparshme si O1 dhe O3-MINI dhe janë në dispozicion të përdoruesve me qasje në mjete. Kompania shprehet se këto modele tani mund të vendosin në mënyrë të pavarur se cilat mjete për të përdorur dhe kur, pa nxitur përdoruesit. Për shembull, një përdorues mund të ngarkojë një skedar kompleks dhe thjesht të kërkojë”një përmbledhje të çështjeve kryesore”. Modeli më pas do të kuptojë nëse do të përdorë mjetin e skedarit, përkthyesin e kodit ose shfletuesin-dhe t’i ekzekutojë vetë ato hapa. src=”të dhëna: imazh/svg+xml; nitro-empty-id=mtcxotoxnjk2-1; base64, phn2zyb2awv3qm94psiwidagmtaynca5md QiiHdpZhropsixmdi0iibozwlnahq9ijkwncig1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> [Përmbajtja e ngulitur]

Arsyetimi, kujtesa dhe inteligjenca vizuale

Modeli O3 fillimisht u paraprinë në dhjetor 2024 dhe më vonë u dha përparësi mbi GPT-5 pasi strategjia e Openai u zhvendos në fillim të prillit. Openai zhvendosi strategjinë në fillim të prillit për të ndarë linjat e modelit të arsyetimit dhe përfundimit pasi fillimisht planifikuan të bashkojnë aftësitë O3 në GPT-5.

Përveç tekstit dhe kodit, modelet e reja mund të përpunojnë dhe arsyetojnë mbi imazhet. Ato mbështesin funksione si zmadhimi, rrotullimi dhe interpretimi i elementeve vizuale-një aftësi e ndërtuar në krye të azhurnimit GPT-4O që shtoi inpainting dhe redaktimin e imazhit në Chatgpt në Mars 2025. Më 11 Prill, Openai aktivizoi një veçori”kujtimi”që lejon modelin të referojë fakte, udhëzime ose preferenca nga bisedat e mëparshme në të gjithë zërin, tekstin dhe imazhin. Ky sistem mbështet të dy kujtimet e ruajtura dhe referencat e nënkuptuara për historinë e bisedës. Për shembull, një përdorues mund të kërkojë Chatgpt të gjurmojë temat e hulumtimit mbi disa PDF, dhe modeli do të ishte në gjendje të kujtojë përmbledhjet paraprake dhe të thërrasë së bashku pasqyra përkatëse automatikisht. nëpër fusha të ndryshme, duke theksuar pikat e tyre të forta në lidhje me njëra-tjetrën dhe modelet e mëparshme.

Në vlerësimet e aftësisë së arsyetimit, modelet e reja tregojnë përfitime të rëndësishme. Për të kërkuar vlerësime të matematikës së konkurrencës si AIME 2024 dhe 2025 (testuar pa ndihmë mjetesh), O4-MINI arriti saktësinë më të lartë, duke udhëhequr ngushtë O3. Të dy modelet në mënyrë të konsiderueshme tejkaluan versionet e mëparshme O1 dhe O3-MINI. Kur merret me pyetje të gjera të nivelit të ekspertëve (“Provimi i fundit i njerëzimit”), O3 duke nxitur Piton dhe mjetet e shfletimit dhanë rezultate të forta, të dyta vetëm për një konfigurim të specializuar të kërkimit të thellë. Modeli O4-MINI, duke përdorur gjithashtu mjete, performoi mirë, duke treguar një avantazh të veçantë ndaj versionit të tij më pak të mjeteve dhe modeleve më të vjetra. Në detyrat e kodimit të konkurrencës CodeForces, O4-MINI (kur çiftëzohet me një mjet terminali) siguroi vlerësimin më të lartë ELO, i ndjekur nga afër nga O3 duke përdorur të njëjtin mjet. Këto rezultate paraqesin një përparim të madh në krahasim me O3-MINI dhe O1. Ndërsa O4-Mini-High performoi më mirë sesa O1-High dhe O3-Mini-High, ajo përshkoi O3-High në këtë provë të veçantë. Për detyrat e verifikuara të inxhinierisë së softuerit në SWE-Bench, O3 tregoi një epërsi të vogël mbi O4-MINI, megjithëse të dy ishin qartë superiore ndaj O1 dhe O3-MINI. Një përjashtim i dukshëm ka ndodhur në simulimin e detyrave të pavarura të Lancer-Lancer, ku modeli më i vjetër O1 i lartë gjeneroi të ardhura më të larta se modelet më të reja O3-High, O4-Mini-High, dhe O3-Mini-High. src=”të dhëna: imazh/svg+xml; nitro-impty-id=mtczoto5njq=-1; base64, phn2zyb2awv3qm94psiwidagnzu1iduw Osigd2lkdgg9ijc1nsigagvpz2h0psi1mdkiihhtbg5zpsjodhrwoi8vd3d3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>

Shkathtësitë e agjentit: Udhëzimi në vijim, përdorimi i mjeteve dhe thirrja e funksionit

Funksionalitetet e zgjeruara të agjentëve të modeleve të reja u reflektuan në teste specifike. Në shkallën multichallenge për udhëzimet me shumë kthesa në vijim, O3 arriti rezultatin më të lartë, përpara O1, O4-Mini dhe O3-Mini. Në testet e shfletimit të internetit agjent (Browsecomp), O3 duke përdorur Python dhe shfletimin shfaqën saktësi të lartë, duke tejkaluar ndjeshëm aftësinë e O1. src=”të dhëna: imazh/svg+xml; nitro-impty-id=mtc1mto4mtq=-1; base64, phn2zyb2awv3qm94psiwidagnjm1idu1 Niigd2lkdgg9ijyyznsigagvpz2h0psi1ntyiiHhtbg5zpsjodhrwoi8vd3d3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>

Modeli O4-MINI me mjete demonstroi gjithashtu kompetencë në shfletim, megjithëse rezultati i tij ishte më i ulët se O3 në këtë përbërje. Performanca e thirrjes së funksionit, e vlerësuar përmes Tau-Bench, e ndryshme nga fusha e detyrave. Konfigurimi i lartë O3 shkëlqeu në fushën e shitjes me pakicë, ndërsa O1-High mbajti një avantazh të vogël në fushën e linjës ajrore në krahasim me O3-High dhe O4-Mini-High. Sidoqoftë, O4-Mini-High tregoi aftësi përgjithësisht të fortë duke thirrur në të dy fushat në lidhje me O3-Mini-High. Në disa standarde multimodale, duke përfshirë MMMU (zgjidhjen e problemeve vizuale të nivelit të kolegjit), Mathvista (arsyetimi vizual i matematikës) dhe kalimi i Charxiv (interpretimi i figurës shkencore), modeli O3 arriti vazhdimisht rezultatet më të larta të saktësisë sipas të dhënave të Openai. Modeli O4-Mini performoi gati po ashtu, duke ndjekur nga afër O3. Të dy O3 dhe O4-Mini shënuan një përmirësim të konsiderueshëm mbi modelin O1 në këto aftësi vizuale të arsyetimit. src=”të dhëna: imazh/svg+xml; nitro-impty-id=mtc2nzoxnjm3-1; base64, phn2zyb2awv3qm94psiwidagmtaynca5od CIIHDPZHROPSIXMDI0IIBOZWLNAHQ9iJK4NYIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”>

efikasiteti dhe performanca e kostos

Përtej aftësisë së papërpunuar, të dhënat e standardit të Openai tregojnë hapa të rëndësishëm në efikasitetin e modelit. Modeli O4-MINI vazhdimisht dorëzoi performancë më të lartë se O3-MINI në standardet kryesore si AIME 2025 dhe GPQA Pass@1 nëpër ambiente të ndryshme operacionale (të ulëta, të mesme, të larta), të gjitha ndërsa kanë një kosto më të ulët të vlerësuar të konkluzionit. Një avantazh i ngjashëm u pa për O3 në krahasim me O1; O3 arriti rezultate dukshëm më të mira në të njëjtat standarde, por me një kosto të zvogëluar të vlerësuar për ambiente të krahasueshme. Kjo sugjeron që përparimet e serive O përfshijnë jo vetëm inteligjencë më të madhe, por edhe efikasitet të përmirësuar llogaritës. src=”të dhëna: imazh/svg+xml; nitro-empty-id=mtc3otoxmtq0-1; base64, phn2zyb2awv3qm94psiwidagmtaynca2md Eiihdpzhropsixmdi0iibozwlnahq9ijywmsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Në përgjithësi, të dhënat e performancës nga Openai tregojnë se O3 shpesh vendos shenjën me ujë të lartë, veçanërisht në operacionet agjentë komplekse dhe detyrat multimodale. Njëkohësisht, O4-MINI dëshmon të jetë një model shumë i aftë dhe veçanërisht efikas, shpesh që përputhet apo edhe tejkalon O3 në standardet specifike të arsyetimit dhe kodimit, ndërsa ofron kursime të konsiderueshme të kostos në krahasim me O3-MINI. Të dy modelet e reja paraqesin një hap të qartë dhe të konsiderueshëm përpara nga ofertat e mëparshme të Openai në shumicën e aftësive të testuara. Kompania kohët e fundit azhurnoi kornizën e saj të gatishmërisë për të lejuar relaksimin e protokolleve të caktuara të sigurisë nëse një rival lëshon një model me rrezik të lartë pa masa mbrojtëse të ngjashme. Kompania shkroi:”Nëse një zhvillues tjetër i Frontier AI lëshon një sistem me rrezik të lartë pa mbrojtje të krahasueshme, ne mund të rregullojmë kërkesat tona.”janë”Ai shtoi se automatizimi kishte lejuar vlerësime më të shpejta të sigurisë. Një ish-punonjës paralajmëroi:”sshtë praktikë e keqe të lëshoni një model i cili është i ndryshëm nga ai që keni vlerësuar.”DeepMind propozoi një kornizë globale të sigurisë AGI në fillim të prillit, ndërsa Antropic lëshoi ​​një mjet interpretimi për ta bërë vendimmarrjen e Claude më transparente. Sidoqoftë, të dy kompanitë janë përballur me një kontroll-antropik për heqjen e angazhimeve të politikës publike, dhe DeepMind për ofrimin e detajeve të kufizuara të zbatimit. Modelet O3 dhe O4-Mini nuk janë thjesht më të zgjuara-ata po veprojnë sipas gjykimit të tyre. Microsoft tashmë ka integruar modelin e lartë O3-Mini në nivelin e tij falas të kopilot. Kohët e fundit, kompania nisi një veçori të Copilot Studio që lejon agjentët e AI të bashkëveprojnë drejtpërdrejt me aplikacionet e desktopit dhe faqet në internet. Këta agjentë mund të simulojnë veprimet e përdoruesit si klikimi i butonave ose futja e të dhënave-veçanërisht e dobishme kur API nuk janë të disponueshme. Kjo linjë është e optimizuar për kodimin, nxitjet me kontekst të gjatë dhe ndjekjen e udhëzimeve, por i mungon përdorimi i mjeteve autonome-më shumë duke theksuar strategjinë e segmentimit të Openai midis modeleve GPT dhe O-Series. Modelet nuk prodhojnë vetëm përgjigje-ato planifikojnë, arsyetojnë dhe zgjedhin se si të veprojnë. Pavarësisht nëse është duke analizuar një punim shkencor, kodin e debugimit ose rregullimin e një imazhi, këto modele tani mund të vendosin se çfarë hapash të ndërmarrin pa pritur udhëzime.

Openai e quan këtë fillimin e sjelljes së ngjashme me agjentin. Por sistemet e agjentëve gjithashtu ngrenë shqetësime të reja: Sa transparent është arsyetimi i tyre? Happensfarë ndodh kur ata bëjnë një telefonatë të keqe ose keqpërdorin një mjet? Këto pyetje nuk janë më teorike. Ndërsa O3 dhe O4-Mini u drejtohen miliona përdoruesve, performanca e botës reale-dhe përgjegjshmëria-do të testohen.

Categories: IT Info