OpenAI telah meluncurkan model kecerdasan buatan terbarunya, o3 dan o3-Mini, yang dirancang untuk unggul dalam tugas-tugas yang memerlukan penalaran logis yang kompleks.
Diumumkan pada akhir acara “12 Hari OpenAI”OpenAI , model ini dibangun berdasarkan kesuksesan rangkaian model o1 sebelumnya dan menggabungkan peningkatan seperti waktu penalaran yang dapat disesuaikan. CEO Sam Altman menggambarkan o3 sebagai langkah maju dalam mengembangkan AI yang mampu menangani “tugas-tugas yang semakin kompleks dan membutuhkan pemikiran yang matang alasan.”
OpenAI mengatakan pihaknya tidak menamai model baru tersebut dengan “o2″“untuk menghormati”merek telekomunikasi Inggris. Model-model baru ini tersedia untuk pratinjau oleh para peneliti keselamatan, dengan akses publik yang lebih luas direncanakan pada awal tahun depan.
Hari 12: Evaluasi awal untuk OpenAI o3 (ya, kami melewatkan satu angka)https://t.co/iWXg9IGuZM
— OpenAI (@OpenAI) 20 Desember, 2024
Peningkatan Kemampuan Penalaran dan Aplikasi
Keluarga o3 memperkenalkan beberapa fitur yang bertujuan untuk meningkatkan kapasitas AI dalam pemecahan masalah logis. Yang paling menonjol, model ini memungkinkan pengguna menyesuaikan waktu yang dialokasikan untuk berpikir, mencapai keseimbangan antara kecepatan dan akurasi.
Menurut OpenAI, kemampuan ini memungkinkan o3 bekerja lebih baik di berbagai tugas, termasuk matematika tingkat lanjut, pemrograman, dan analisis ilmiah.
Tidak seperti model lain yang berfokus pada penalaran, o3 seperti o1 menggunakan metodologi “rantai pemikiran pribadi”. Metode ini memecah masalah menjadi langkah-langkah yang lebih kecil dan logis sebelum memberikan solusi. OpenAI mengklaim pendekatan ini membantu meminimalkan kesalahan dan memastikan bahwa model memberikan hasil yang lebih andal untuk kueri yang kompleks.
Altman menunjukkan bahwa model baru ini dirancang untuk mengatasi tugas-tugas yang biasanya bergantung pada kemampuan pemecahan masalah manusia.
Kinerja pada Tolok Ukur Utama
Evaluasi internal OpenAI menempatkan o3 sebagai peningkatan besar dibandingkan pendahulunya. Pada ARC-AGI, sebuah tolok ukur yang dirancang untuk menguji generalisasi AI, o3 meraih skor. dari 87,5%, dibandingkan dengan skor tertinggi o1 sebesar 32%. Tolok ukur lain semakin menyoroti keunggulan o3:
EpochAI Frontier Math: o3 memecahkan 25,2% masalah, mengungguli semua sistem AI lainnya, yang mencapai hasil maksimal. pada 2%. FrontierMath mengevaluasi kemampuan sistem AI dalam penalaran matematika tingkat lanjut. Tolok ukurnya terdiri dari ratusan soal matematika orisinal dan sangat menantang yang mencakup cabang-cabang utama matematika modern, termasuk teori bilangan komputasi, analisis real, geometri aljabar, dan teori kategori.
AIME 2024: skor o3 96,7%, dengan hanya satu pertanyaan yang terlewat. Tolok ukur AIME (Artificial Intelligence Math Evaluation) 2024 dirancang untuk menilai kemampuan pemecahan masalah matematis model AI berdasarkan Ujian AIME 2024. Evaluasi ini berfokus pada tantangan matematika yang kompleks, serupa dengan yang dihadapi dalam American Invitational Mathematics Examination, yang dikenal untuk menguji keterampilan siswa matematika sekolah menengah atas yang sangat berbakat di Amerika Serikat.
GPQA Diamond: Mencapai tingkat akurasi 87,7%, unggul dalam menjawab pertanyaan logis tingkat tinggi. GPQA Diamond mengevaluasi kemampuan sistem AI dalam penalaran ilmiah tingkat lanjut di bidang biologi, fisika, dan kimia pada tingkat pascasarjana. Tolok ukur ini terdiri dari 198 pertanyaan pilihan ganda yang sangat menantang dan dirancang agar sulit bahkan bagi orang yang bukan ahli dan berketerampilan tinggi.
François Chollet, salah satu pencipta ARC-AGI, menggambarkan kemajuan ini sebagai kemajuan yang solid namun hanya mencerminkan satu aspek kecerdasan umum.
Hari ini OpenAI mengumumkan o3, model penalaran generasi berikutnya. Kami telah bekerja sama dengan OpenAI untuk mengujinya di ARC-AGI, dan kami yakin ini merupakan terobosan signifikan dalam membuat AI beradaptasi dengan tugas-tugas baru.
Skornya mendapat skor 75,7% pada evaluasi semi-pribadi di tingkat rendah-mode komputasi (seharga $20 per tugas… pic.twitter.com/ESQ9CNVCEA
— François Chollet (@fchollet) 20 Desember 2024
Chollet juga membagikan beberapa contoh tugas yang o3 tidak dapat selesaikan pada pengaturan komputasi tinggi, yang tersedia di GitHub untuk analisis lebih lanjut.
Ini juga akan sangat luar biasa penting untuk menganalisis kekuatan dan keterbatasan sistem baru. Berikut adalah beberapa contoh tugas yang tidak dapat diselesaikan oleh o3 pada pengaturan komputasi tinggi (meskipun sistem tersebut menghasilkan jutaan token pencarian CoT dan menghabiskan ribuan dolar komputasi… pic.twitter.com/IULyjAlxwV
— François Chollet (@fchollet) 20 Desember, 2024
Kekhawatiran dan Keterbatasan Keamanan
Terlepas dari pencapaiannya, o3 menimbulkan kekhawatiran mengenai penerapan etis dan keselamatan. Model penalaran seperti o1 ditemukan menunjukkan kecenderungan lebih tinggi terhadap perilaku menipu dibandingkan dengan AI tradisional. OpenAI mengakui bahwa risiko ini dapat bertahan pada o3 dan secara aktif berkolaborasi dengan organisasi eksternal untuk melakukan pengujian keamanan.
Altman menyarankan dalam sebuah wawancara baru-baru ini bahwa peluncuran sistem AI yang canggih harus dipandu oleh kerangka kerja federal yang kuat untuk memastikan keselamatan dan tanggung jawab.
Terkait: Hasil Indeks Keamanan AI 2024: OpenAI, Google, Meta, xAI Gagal; Anthropic on Top
Munculnya Penalaran AI dan Persaingan Industri
Pengumuman OpenAI muncul di saat persaingan yang semakin ketat di antara para pengembang AI. Baru kemarin, Google memperkenalkan model Gemini 2.0 Flash Thinking, yang digambarkan oleh CEO Sundar Pichai sebagai “sistem kami yang paling bijaksana.” Sementara itu, Alibaba dan DeepSeek juga telah merilis model yang berfokus pada penalaran, menandai peralihan ke bidang khusus pengembangan AI.
Popularitas penalaran AI mencerminkan konsensus yang berkembang bahwa penskalaan model saja tidak lagi cukup untuk mencapai peningkatan kinerja yang besar. Namun, sistem ini memerlukan sumber daya komputasi yang signifikan, sehingga menimbulkan pertanyaan tentang skalabilitas jangka panjangnya.
Terkait: Tolok Ukur FACTS Baru Google Mengukur Kebenaran Model AI
Konteks yang Lebih Luas: o3 dan Kecerdasan Umum Buatan
Kemajuan OpenAI dengan o3 telah menghidupkan kembali perdebatan tentang kecerdasan umum buatan (AGI). Perusahaan mendefinisikan AGI sebagai sistem yang “mengungguli manusia dalam pekerjaan yang paling bernilai ekonomis.”Pencapaian AGI akan berdampak finansial terhadap kemitraan OpenAI dengan Microsoft, yang berpotensi mengubah perjanjian mereka mengenai akses terhadap teknologi perusahaan.
Meskipun Altman tidak menyatakan o3 sebagai AGI, kinerjanya yang kuat dalam tolok ukur menunjukkan bahwa OpenAI semakin maju. lebih dekat dengan tujuan ambisius ini. Namun, validasi eksternal dan pengujian lebih lanjut akan sangat penting untuk mengonfirmasi kemampuan model.
Terkait: OpenAI Memikirkan Kembali Klausul AGI untuk Mengamankan Kemitraan Microsoft
Pengumuman Sebelumnya Selama “12 Hari OpenAI”
Pada tanggal 19 Desember, OpenAI meluncurkan pembaruan pada aplikasi desktop ChatGPT untuk macOS. Pengguna Mac kini dapat merasakan pengalaman yang lebih interaktif dan pendekatan hands-free dalam menggunakan ChatGPT, yang semakin mengaburkan batas antara interaksi manusia dan komputer.
Pada tanggal 18 Desember, OpenAI meluncurkan nomor bebas pulsa dan akses WhatsApp untuk ChatGPT, sehingga chatbot AI lebih mudah diakses.
17 Desember menghadirkan akses API untuk model o1 OpenAI versi lengkap, penyempurnaan pada Realtime API untuk interaksi suara, dan metode penyesuaian preferensi baru.
Pada bulan Desember Pada tanggal 16 Desember, OpenAI membuat fitur penelusuran web langsung ChatGPT tersedia bagi semua pengguna, sehingga siapa pun dapat mengambil informasi terkini langsung dari web.
14 Desember menghadirkan opsi penyesuaian baru ke ChatGPT, sehingga pengguna dapat menyederhanakan tugas dan mengelola proyek secara efektif. Projects memungkinkan pengguna mengelompokkan chat, file, dan instruksi khusus ke dalam folder khusus, sehingga menciptakan ruang kerja terorganisir untuk mengelola tugas dan alur kerja.
Sebagai peningkatan besar pada mode suara lanjutan untuk ChatGPT, OpenAI pada 12 Desember ditambahkan kemampuan penglihatan, memungkinkan pengguna berbagi video langsung dan layar untuk analisis dan bantuan real-time.
Pada tanggal 11 Desember, OpenAI merilis sepenuhnya Canvas, ruang kerja pengeditan kolaboratif yang menawarkan alat canggih untuk teks dan kode penyempurnaan. Pertama kali diluncurkan dalam versi beta pada bulan Oktober 2024, Canvas menggantikan antarmuka standar ChatGPT dengan desain layar terpisah, memungkinkan pengguna mengerjakan teks atau kode sambil terlibat dalam pertukaran percakapan dengan AI.
Penambahan eksekusi Python adalah fitur menonjol dari Canvas, memungkinkan pengembang menulis, menguji, dan men-debug skrip langsung di dalam platform. OpenAI mendemonstrasikan kegunaannya selama siaran langsung dengan menggunakan Python untuk menghasilkan dan menyempurnakan visualisasi data. OpenAI mendeskripsikan fitur ini sebagai “mengurangi gesekan antara pembuatan ide dan implementasi”.
Pada tanggal 9 Desember, OpenAI secara resmi meluncurkan Sora, alat AI canggihnya untuk menghasilkan video dari perintah teks, yang menandakan era baru bagi AI kreatif. Terintegrasi dengan akun ChatGPT berbayar, Sora memungkinkan pengguna untuk menganimasikan gambar diam, memperluas video yang ada, dan menggabungkan adegan menjadi narasi yang kohesif.
Dirilis pada tanggal 7 Desember adalah Reinforcement Fine-Tuning sebagai kerangka kerja baru yang dirancang untuk memungkinkan penyesuaian model AI untuk aplikasi spesifik industri. Ini adalah pendekatan terbaru OpenAI untuk meningkatkan model AI dengan melatih mereka menggunakan kumpulan data dan sistem penilaian yang disediakan pengembang. p>
Pada tanggal 5 Desember, OpenAI meluncurkan ChatGPT Pro, tingkat langganan premium baru dengan harga $200 per bulan, ditujukan bagi para profesional dan perusahaan yang mencari kemampuan AI tingkat lanjut untuk alur kerja dengan permintaan tinggi.