Model baru Openai-O3 dan O4-Mini-tanda perubahan tajam dalam apa yang dapat dilakukan chatgpt tanpa diberitahu. Untuk pertama kalinya, sistem tidak hanya menanggapi petunjuk-itu dapat memutuskan, merencanakan, dan bertindak. Model-model ini dapat memilih alat internal mana yang akan digunakan-apakah itu menjelajah, membaca file, eksekusi kode, atau pembuatan gambar-dan memulai tindakan tersebut secara mandiri. Openai menggambarkan ini sebagai langkah pertama menuju”perilaku agen awal.”
Pada pertengahan April, kedua model aktif untuk pengguna ChatGPT Plus, Team, dan Enterprise. Mereka mengganti model sebelumnya seperti O1 dan O3-Mini dan tersedia untuk pengguna dengan akses ke alat. Perusahaan menyatakan model-model ini sekarang dapat secara mandiri memutuskan alat mana yang akan digunakan dan kapan, tanpa meminta pengguna.
Otonomi ini memungkinkan chatgpt untuk beroperasi lebih seperti asisten yang memahami niat dan mengambil inisiatif. Misalnya, pengguna dapat mengunggah file yang kompleks dan cukup meminta”ringkasan masalah utama.”Model kemudian akan mencari tahu apakah akan menggunakan alat file, juru bahasa kode, atau browser-dan menjalankan langkah-langkah itu sendiri.
[Konten Tertanam]
Penalaran, Memori, dan Kecerdasan Visual
Model O3 awalnya dipratinjau pada bulan Desember 2024 dan kemudian diprioritaskan daripada GPT-5 setelah strategi Openai bergeser pada awal April. Openai menggeser strategi pada awal April untuk memisahkan garis model dan penyelesaian setelah awalnya berencana untuk menggabungkan kemampuan O3 menjadi GPT-5.
Selain teks dan kode, model baru dapat memproses dan alasan atas gambar. Mereka mendukung fungsi-fungsi seperti memperbesar, memutar, dan menafsirkan elemen visual-kemampuan yang dibangun di atas pembaruan GPT-4O yang menambahkan inpainting dan pengeditan gambar ke chatgpt pada Maret 2025.
Rilis O3 dan O4-Mini diatur waktunya bersama dengan overhaul dari kemampuan memori ChatGPP. Pada 11 April, OpenAI mengaktifkan fitur”Recall”yang memungkinkan model untuk merujuk fakta, instruksi, atau preferensi dari percakapan sebelumnya di seluruh suara, teks, dan gambar. Sistem ini mendukung kedua kenangan yang disimpan dan referensi implisit ke riwayat obrolan.
Altman menyebut peningkatan”fitur yang sangat hebat… ini menunjuk pada sesuatu yang kami sukai: sistem AI yang mengenal Anda selama hidup Anda, dan menjadi sangat berguna dan dipersonalisasi.”
Untuk penalaran model seperti O3, memori meningkatkan kemampuan untuk merencanakan tugas-tugas di atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas tugas atas dasi atas tugas atas tugas atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas dasi atas detak-dasi atas. A user could, for example, ask ChatGPT to track research themes over several PDFs, and the model would be able to recall prior summaries and stitch together relevant insights automatically.
o3 and o4-mini Performance and Benchmarks
Benchmark results released by OpenAI provide insight into the capabilities of the new o3 and o4-mini Model di berbagai domain, menyoroti kekuatan mereka relatif satu sama lain dan model sebelumnya.
Dalam penilaian kemampuan penalaran, model baru menunjukkan keuntungan yang signifikan. Untuk menuntut evaluasi matematika kompetisi seperti AIME 2024 dan 2025 (diuji tanpa bantuan alat), O4-Mini mencapai akurasi tertinggi, O3 memimpin secara sempit. Kedua model secara substansial mengungguli versi O1 dan O3-mini sebelumnya.
Pola ini diadakan untuk pertanyaan sains tingkat PhD yang diukur dengan berlian GPQA, di mana O4-Mini lagi sedikit muncul O3, dengan keduanya menunjukkan peningkatan yang nyata atas pendahulunya. Saat menangani pertanyaan tingkat ahli yang luas (“Ujian Terakhir Kemanusiaan”), O3 memanfaatkan python dan alat penelusuran memberikan hasil yang kuat, kedua setelah konfigurasi penelitian mendalam khusus. Model O4-Mini, juga menggunakan alat, berkinerja baik, menunjukkan keunggulan berbeda dibandingkan versi tanpa alat dan model yang lebih lama.
Coding dan kemampuan rekayasa perangkat lunak
Kemahiran model dalam pengkodean dan pengembangan perangkat lunak diuji di beberapa tolok ukur. Pada tugas-tugas pengkodean kompetisi Codeforces, O4-Mini (ketika dipasangkan dengan alat terminal) mengamankan peringkat ELO tertinggi, diikuti oleh O3 menggunakan alat yang sama. Skor ini mewakili kemajuan utama dibandingkan dengan O3-Mini dan O1.
Dalam pengeditan kode poliglot yang dinilai oleh Aider, varian O3-tinggi menunjukkan akurasi keseluruhan terbaik. Sementara o4-mini-tinggi berkinerja lebih baik daripada O1-tinggi dan O3-mini-tinggi, itu tertinggi O3 pada tes khusus ini. Untuk tugas-tugas rekayasa perangkat lunak yang diverifikasi di SWE-Bench, O3 menunjukkan sedikit keunggulan lebih dari O4-Mini, meskipun keduanya jelas lebih unggul daripada O1 dan O3-Mini. Pengecualian penting terjadi dalam simulasi tugas lepas SWE-Lancer, di mana model O1-tinggi yang lebih tua menghasilkan pendapatan simulasi yang lebih tinggi daripada model tinggi O3-tinggi, O4-mini, dan o3-mini. src=”data: gambar/svg+xml; nitro-empty-id=mtczoto5njq=-1; base64, phn2zyb2awv3qm94psiwidagnzu1iduw OSIGD2LKDGG9IJC1NSIGAGVPZ2H0PSI1MDKIIHHTBG5ZPSJODHRWOI8VD3D3LNCZLM9YZY8YMDAWL3N2ZYI+PC9ZDMC+”>
Keterampilan Agen: Instruksi Mengikuti, Penggunaan Alat, dan Panggilan Fungsi
Fungsionalitas agen yang ditingkatkan dari model baru tercermin dalam tes tertentu. Pada skala multichallenge untuk pengajaran multi-turn, O3 mencapai skor tertinggi, di depan O1, O4-Mini, dan O3-Mini. Dalam Tes Penjelajahan Web Agen (BrowsEComp), O3 yang menggunakan Python dan penelusuran ditampilkan akurasi tinggi, secara signifikan melampaui kemampuan O1.
Model O4-Mini dengan alat juga menunjukkan kompetensi dalam menjelajah, meskipun skornya lebih rendah dari O3 dalam pengaturan ini. Kinerja panggilan fungsi, dievaluasi melalui tau-bench, bervariasi dengan domain tugas. Konfigurasi tinggi O3 unggul dalam domain ritel, sedangkan O1-High memegang sedikit keunggulan dalam domain maskapai dibandingkan dengan O3-tinggi dan O4-mini-tinggi. Namun demikian, O4-mini-tinggi menunjukkan kemampuan panggilan fungsi yang kuat di kedua domain relatif terhadap O3-mini-tinggi.
pemahaman multimodal
Kinerja pada tugas yang membutuhkan pemahaman visual juga diukur. Di beberapa tolok ukur multimodal, termasuk MMMU (pemecahan masalah visual tingkat perguruan tinggi), Mathvista (penalaran matematika visual), dan pengejaran charxiv (interpretasi figur ilmiah), model O3 secara konsisten mencapai skor akurasi tertinggi menurut data Openai. Model O4-Mini berkinerja hampir juga, mengikuti O3. Baik O3 dan O4-Mini menandai peningkatan substansial dibandingkan model O1 dalam kemampuan penalaran visual ini.
efisiensi dan kinerja biaya
Di luar kemampuan mentah, data benchmark OpenAI menunjukkan langkah yang signifikan dalam efisiensi model. Model O4-Mini secara konsisten memberikan kinerja yang lebih tinggi daripada O3-Mini pada tolok ukur utama seperti AIME 2025 dan GPQA Pass@1 di berbagai pengaturan operasional (rendah, sedang, tinggi), semuanya memiliki perkiraan biaya inferensi yang lebih rendah. Keuntungan serupa terlihat untuk O3 dibandingkan dengan O1; O3 mencapai hasil yang jauh lebih baik pada tolok ukur yang sama tetapi pada perkiraan biaya yang dikurangi untuk pengaturan yang sebanding. Ini menunjukkan bahwa kemajuan seri-O tidak hanya mencakup intelijen yang lebih besar tetapi juga peningkatan efisiensi komputasi.
Secara keseluruhan, data kinerja dari OpenAI menunjukkan bahwa O3 sering menetapkan tanda air tinggi, terutama dalam operasi agen yang kompleks dan tugas multimodal. Secara bersamaan, O4-Mini terbukti menjadi model yang sangat mampu dan sangat efisien, sering cocok atau bahkan melebihi O3 dalam tolok ukur penalaran dan pengkodean tertentu, sambil menawarkan penghematan biaya yang signifikan dibandingkan dengan O3-Mini. Kedua model baru mewakili langkah maju dan substansial dari penawaran OpenAI sebelumnya di sebagian besar kemampuan yang diuji.
Pengujian keselamatan terkompresi Perhatian
Peluncuran Openai yang cepat dari O-Seri-O telah menimbulkan kekhawatiran secara internal dan eksternal. Perusahaan baru-baru ini memperbarui kerangka kesiapsiagaannya untuk memungkinkan melonggarkan protokol keselamatan tertentu jika saingannya melepaskan model berisiko tinggi tanpa perlindungan yang serupa. Perusahaan menulis:”Jika pengembang AI perbatasan lain merilis sistem risiko tinggi tanpa perlindungan yang sebanding, kami dapat menyesuaikan persyaratan kami.”
Ini datang di tengah laporan bahwa pengujian internal untuk O3 telah dikompresi dari beberapa bulan ke waktu yang lebih baik. adalah.”Dia menambahkan bahwa otomatisasi telah memungkinkan evaluasi keamanan yang lebih cepat.
Salah satu bidang yang menjadi perhatian adalah pilihan Openai untuk menguji pos pemeriksaan menengah model daripada versi akhir. Seorang mantan karyawan memperingatkan:”Praktik buruk untuk merilis model yang berbeda dari yang Anda evaluasi.”
Kerangka kerja yang diperbarui juga memperkenalkan kategori baru yang dilacak dan penelitian untuk memantau risiko seperti replikasi otonom, manipulasi pengawasan, dan lebih banyak perencanaan horizon.
Google Deepmind dan Anthropic lebih banyak. Deepmind mengusulkan kerangka keselamatan AGI global pada awal April, sementara Antropik merilis toolkit interpretabilitas untuk membuat pengambilan keputusan Claude lebih transparan. Namun, kedua perusahaan telah menghadapi pengawasan-anthropic untuk menghilangkan komitmen kebijakan publik, dan DeepMind karena menawarkan rincian penegakan hukum terbatas.
Openai, sebaliknya, mengisi daya ke depan dengan kemampuan yang menempatkan modelnya lebih dekat menjadi aktor independen dalam sistem. Model O3 dan O4-Mini tidak hanya lebih pintar-mereka bertindak atas penilaian mereka sendiri.
kompetisi mendorong kemampuan agen ke depan
Strategi Openai bermain melawan lanskap kompetitif di mana saingan juga berpacu untuk menentukan masa depan AI. Microsoft telah mengintegrasikan model O3-mini-tinggi ke dalam tingkat kopilot gratis. Baru-baru ini, perusahaan meluncurkan fitur Copilot Studio yang memungkinkan agen AI untuk berinteraksi langsung dengan aplikasi desktop dan halaman web. Agen-agen ini dapat mensimulasikan tindakan pengguna seperti mengklik tombol atau memasukkan data-terutama berguna ketika API tidak tersedia.
Sementara itu, lini model Openai GPT-4.1, diluncurkan pada 14 April, tersedia secara eksklusif melalui API. Garis itu dioptimalkan untuk pengkodean, petunjuk konteks panjang, dan mengikuti instruksi, tetapi tidak memiliki penggunaan alat yang otonom-lebih menyoroti strategi segmentasi OpenAI antara model GPT dan o-series.
dari asisten ke agen
dengan rilis O3 dan O4-Mini, chat
dengan rilis O3 dan O4-Mini, CHATI . Model-model tidak hanya menghasilkan jawaban-rencana, alasan, dan memilih bagaimana bertindak. Baik itu mem-parsing makalah ilmiah, debugging kode, atau menyesuaikan gambar, model ini sekarang dapat memutuskan langkah apa yang harus diambil tanpa menunggu instruksi.
Openai menyebut ini awal dari perilaku seperti agen. Tetapi sistem agen juga menimbulkan kekhawatiran baru: seberapa transparan alasan mereka? Apa yang terjadi ketika mereka melakukan panggilan yang buruk atau menyalahgunakan alat? Pertanyaan-pertanyaan ini tidak lagi teoretis. Saat O3 dan O4-Mini diluncurkan ke jutaan pengguna, kinerja dunia nyata-dan akuntabilitas-akan diuji.