Model baru Openai-O3 dan O4-Mini-menandakan pergeseran tajam dalam apa yang boleh dilakukan oleh Chatgpt tanpa diberitahu. Buat pertama kalinya, sistem tidak hanya bertindak balas terhadap arahan-ia boleh membuat keputusan, merancang, dan bertindak. Model-model ini boleh memilih alat dalaman yang hendak digunakan-sama ada pelayaran, bacaan fail, pelaksanaan kod, atau penjanaan imej-dan memulakan tindakan tersebut secara bebas. Openai menerangkan ini sebagai langkah pertama ke arah”tingkah laku agentik awal.”Mereka menggantikan model terdahulu seperti O1 dan O3-Mini dan tersedia untuk pengguna dengan akses kepada alat. Syarikat menyatakan model-model ini kini boleh menentukan alat mana yang hendak digunakan dan bila, tanpa pengguna yang mendorong.

Autonomi ini membolehkan ChatGPT beroperasi lebih seperti pembantu yang memahami niat dan mengambil inisiatif. Sebagai contoh, pengguna boleh memuat naik fail yang kompleks dan hanya meminta”ringkasan isu utama.”Model ini akan mengetahui sama ada menggunakan alat fail, penterjemah kod, atau penyemak imbas-dan melaksanakan langkah-langkah itu sendiri.

[Kandungan tertanam]

Penalaran, memori, dan kecerdasan visual

Model O3 pada mulanya dipratonton pada Disember 2024 dan kemudian diprioritaskan melalui GPT-5 selepas strategi OpenAI beralih pada awal April. Strategi Terbuka Terbuka pada awal April untuk memisahkan garis model penalaran dan penyempurnaan selepas merancang untuk menggabungkan keupayaan O3 ke GPT-5. Mereka menyokong fungsi seperti zoom, berputar, dan mentafsirkan elemen visual-keupayaan yang dibina di atas kemas kini GPT-4O yang menambah pengeditan dan pengeditan imej kepada CHATGPT pada bulan Mac 2025. Pada 11 April, OpenAI mengaktifkan ciri”Recall”yang membolehkan model untuk merujuk fakta, arahan, atau keutamaan dari perbualan terdahulu merentasi suara, teks, dan imej. Sistem ini menyokong kedua-dua kenangan yang disimpan dan rujukan tersirat kepada sejarah sembang.

Altman yang dipanggil Upgrade”Ciri-ciri yang mengejutkan hebat… ia menunjukkan sesuatu yang kita teruja: sistem AI yang mengenali anda sepanjang hidup anda, dan menjadi sangat berguna dan diperibadikan. Seorang pengguna boleh, sebagai contoh, meminta CHATGPT untuk menjejaki tema penyelidikan ke atas beberapa PDF, dan model itu akan dapat menarik balik ringkasan sebelumnya dan menjahit bersama-sama dengan pandangan yang relevan secara automatik. Model-model di pelbagai domain, menonjolkan kekuatan mereka berbanding dengan satu sama lain dan model terdahulu.

Dalam penilaian keupayaan penalaran, model baru menunjukkan keuntungan yang signifikan. Untuk menuntut penilaian matematik persaingan seperti AIME 2024 dan 2025 (diuji tanpa bantuan alat), O4-Mini mencapai ketepatan tertinggi, yang terkemuka O3. Kedua-dua model secara mendadak mengatasi versi O1 dan O3-mini yang lebih awal. Apabila menangani soalan-soalan peringkat pakar yang luas (“Peperiksaan Terakhir Kemanusiaan”), O3 memanfaatkan Python dan alat pelayaran menyampaikan hasil yang kuat, kedua hanya untuk konfigurasi penyelidikan yang mendalam. Model O4-Mini, juga menggunakan alat, dilakukan dengan baik, menunjukkan kelebihan yang berbeza terhadap versi alat dan model yang lebih lama.

Keupayaan kejuruteraan pengekodan dan perisian Pada tugas-tugas pengekodan persaingan codeforces, O4-Mini (apabila dipasangkan dengan alat terminal) memperoleh penarafan ELO tertinggi, diikuti oleh O3 menggunakan alat yang sama. Skor ini mewakili kemajuan besar berbanding O3-Mini dan O1.

Dalam pengeditan kod polyglot yang dinilai oleh Aider, varian O3-tinggi menunjukkan ketepatan keseluruhan yang terbaik. Walaupun O4-mini-tinggi dilakukan lebih baik daripada O1-tinggi dan O3-mini-tinggi, ia melampaui O3-tinggi pada ujian ini. Untuk tugas kejuruteraan perisian yang disahkan pada SWE-Bench, O3 menunjukkan sedikit pendahuluan ke atas O4-Mini, walaupun kedua-duanya jelas lebih tinggi daripada O1 dan O3-mini. Pengecualian yang ketara berlaku dalam simulasi tugas bebas SWE-Lancer, di mana model O1 yang lebih tinggi menghasilkan pendapatan simulasi yang lebih tinggi daripada model O3-tinggi, O4-mini, dan O3-mini yang lebih tinggi. Src=”Data: Image/Svg+Xml; Nitro-empty-id=mtczoto5njq=-1; base64, phn2zyb2awv3qm94psiwidagnzu1iduw OSIGD2LKDGG9IJC1NSIGAGVPZ2H0PSI1MDKIIHHTBG5ZPSJODHRWOI8VD3D3LNCZLM9YZY8YMDAWL3NYI+PC9ZDMC+”>

Kemahiran Agentik: Arahan berikut, Penggunaan Alat, dan Fungsi Memanggil

Fungsi agentik yang dipertingkatkan dari model-model baru dicerminkan dalam ujian tertentu. Pada skala multichallenge untuk arahan berbilang giliran berikut, O3 mencapai skor teratas, menjelang O1, O4-Mini, dan O3-mini. Dalam Ujian Pelayaran Web Agentic (Browsecomp), O3 menggunakan python dan pelayaran menunjukkan ketepatan yang tinggi, dengan ketara melampaui keupayaan O1.

Model O4-Mini dengan alat juga menunjukkan kecekapan dalam melayari, walaupun skornya lebih rendah daripada O3 dalam persediaan ini. Prestasi panggilan fungsi, yang dinilai melalui tau-bangku, diubah dengan domain tugas. Konfigurasi O3-tinggi cemerlang dalam domain runcit, sedangkan O1-tinggi memegang sedikit kelebihan dalam domain penerbangan berbanding O3-tinggi dan O4-mini-tinggi. Walau bagaimanapun, O4-Mini-tinggi menunjukkan keupayaan memanggil fungsi yang kuat di kedua-dua domain berbanding dengan O3-mini-tinggi.

Pemahaman multimodal

Di seluruh beberapa tanda aras multimodal, termasuk MMMU (penyelesaian masalah visual peringkat kolej), Mathvista (Visual Math Rensing), dan Charxiv-Reasoning (tafsiran angka saintifik), model O3 secara konsisten mencapai skor ketepatan tertinggi mengikut data OpenAI. Model O4-Mini dilakukan hampir juga, berikutan rapat di belakang O3. Kedua-dua O3 dan O4-Mini menandakan peningkatan yang besar ke atas model O1 dalam keupayaan penalaran visual ini.

Kecekapan dan prestasi kos

Di luar kemampuan mentah, data penanda aras OpenAI menunjukkan langkah yang signifikan dalam kecekapan model. Model O4-Mini secara konsisten menyampaikan prestasi yang lebih tinggi daripada O3-Mini pada tanda aras utama seperti AIME 2025 dan GPQA Pass@1 merentasi tetapan operasi yang berbeza (rendah, sederhana, tinggi), semuanya mempunyai kos kesimpulan yang lebih rendah. Kelebihan yang sama dilihat untuk O3 berbanding O1; O3 mencapai hasil yang jauh lebih baik pada tanda aras yang sama tetapi pada kos yang dikurangkan untuk tetapan setanding. Ini menunjukkan kemajuan O-Series termasuk bukan sahaja kecerdasan yang lebih besar tetapi juga meningkatkan kecekapan pengiraan.

Secara keseluruhan, data prestasi dari OpenAI menunjukkan bahawa O3 sering menetapkan tanda air tinggi, terutamanya dalam operasi agentik kompleks dan tugas multimodal. Pada masa yang sama, O4-Mini terbukti menjadi model yang sangat berkebolehan dan lebih cekap, selalunya sepadan atau bahkan melebihi O3 dalam penanda aras penalaran dan pengekodan tertentu, sambil menawarkan penjimatan kos yang signifikan berbanding O3-Mini. Kedua-dua model baru mewakili langkah yang jelas dan substansial dari persembahan OpenAI terdahulu di seluruh keupayaan yang diuji. Syarikat itu baru-baru ini mengemas kini rangka kerja kesediaannya untuk membolehkan santai protokol keselamatan tertentu jika saingan melepaskan model berisiko tinggi tanpa perlindungan yang sama. Syarikat itu menulis:”Jika pemaju AI yang lain melepaskan sistem berisiko tinggi tanpa perlindungan yang setanding, kami boleh menyesuaikan keperluan kami.”adalah.”Beliau menambah bahawa automasi telah membenarkan penilaian keselamatan yang lebih cepat.

Satu bidang kebimbangan adalah pilihan terbuka untuk menguji titik pemeriksaan model pertengahan dan bukannya versi akhir. Seorang bekas pekerja memberi amaran:”Amalan buruk untuk melepaskan model yang berbeza daripada yang anda menilai.”DeepMind mencadangkan kerangka keselamatan AGI global pada awal April, sementara antropik mengeluarkan toolkit tafsiran untuk membuat keputusan Claude lebih telus. Walau bagaimanapun, kedua-dua syarikat telah menghadapi penelitian-antropik untuk menghapuskan komitmen dasar awam, dan DeepMind untuk menawarkan butiran penguatkuasaan terhad. Model O3 dan O4-mini bukan hanya lebih bijak-mereka bertindak atas penghakiman mereka sendiri. Microsoft telah mengintegrasikan model O3-mini-tinggi ke peringkat copilot percuma. Baru-baru ini, syarikat itu melancarkan ciri Copilot Studio yang membolehkan ejen AI berinteraksi secara langsung dengan aplikasi desktop dan laman web. Ejen-ejen ini boleh mensimulasikan tindakan pengguna seperti mengklik butang atau memasukkan data-terutamanya berguna apabila API tidak tersedia. Garis itu dioptimumkan untuk pengekodan, komando panjang, dan arahan yang berikut, tetapi tidak mempunyai alat autonomi-perlahan-lour yang menonjolkan strategi segmentasi OpenAI antara model GPT dan O-Series.

Model-model ini tidak hanya menghasilkan jawapan-mereka merancang, alasan, dan memilih cara bertindak. Sama ada ia menguraikan kertas saintifik, kod debugging, atau menyesuaikan imej, model-model ini kini boleh menentukan langkah-langkah yang perlu diambil tanpa menunggu arahan.

Terbuka memanggil ini permulaan tingkah laku seperti ejen. Tetapi sistem ejen juga menimbulkan kebimbangan baru: Bagaimana telus adalah penalaran mereka? Apa yang berlaku apabila mereka membuat panggilan buruk atau menyalahgunakan alat? Soalan-soalan ini tidak lagi teori. Memandangkan O3 dan O4-Mini melancarkan kepada berjuta-juta pengguna, prestasi dunia sebenar-dan akauntabiliti-akan diuji.

Categories: IT Info