OpenAI telah mendedahkan model kecerdasan buatan terbaharunya, o3 dan o3-Mini, yang direka untuk cemerlang dalam tugasan yang memerlukan penaakulan logik yang kompleks.
Diumumkan semasa penutup acara”12 Hari OpenAI”OpenAI , model membina kejayaan keluarga model o1 yang terdahulu dan menggabungkan peningkatan seperti masa penaakulan boleh laras, Sam Altman menyifatkan o3 sebagai satu langkah ke hadapan dalam pembangunan AI mampu mengendalikan”tugas yang semakin kompleks yang memerlukan penaakulan yang bernas.”
Model baharu tersedia untuk pratonton oleh penyelidik keselamatan, dengan akses awam yang lebih luas dirancang untuk awal tahun depan.
Hari 12: Awal evals untuk OpenAI o3 (ya, kami melangkau nombor)https://t.co/iWXg9IGuZM
— OpenAI (@OpenAI ) 20 Disember 2024
Keupayaan dan Aplikasi Penaakulan yang Dipertingkat
Keluarga o3 memperkenalkan beberapa ciri yang bertujuan untuk meningkatkan kapasiti AI untuk penyelesaian masalah logik. Paling ketara, model tersebut membolehkan pengguna melaraskan masa yang diperuntukkan untuk penaakulan, mencapai keseimbangan antara kelajuan dan ketepatan.
Menurut OpenAI, keupayaan ini membolehkan o3 melakukan lebih baik merentasi pelbagai tugas, termasuk matematik lanjutan, pengaturcaraan dan analisis saintifik.
Tidak seperti model berfokuskan penaakulan lain, o3 seperti o1 menggunakan metodologi”rantaian pemikiran peribadi”. Ini memecahkan masalah kepada langkah logik yang lebih kecil sebelum menyediakan penyelesaian. OpenAI mendakwa pendekatan ini membantu meminimumkan ralat dan memastikan model memberikan hasil yang lebih dipercayai untuk pertanyaan yang kompleks.
Altman menyatakan bahawa model baharu direka bentuk untuk menangani tugasan yang secara tradisinya bergantung pada keupayaan menyelesaikan masalah manusia.
Prestasi pada Kunci Penanda Aras
Kedudukan penilaian dalaman OpenAI o3 sebagai peningkatan besar berbanding pendahulunya Pada ARC-AGI, penanda aras yang direka untuk menguji AI generalisasi, o3 mencapai skor 87.5%, berbanding skor tertinggi o1 sebanyak 32%. François Chollet, pencipta bersama ARC-AGI, menyifatkan kemajuan ini sebagai”teguh tetapi mencerminkan hanya satu aspek kecerdasan umum.”
Tanda aras lain menyerlahkan lagi kekuatan o3:
EpochAI Frontier Math: Menyelesaikan 25.2% daripada masalah, mengatasi semua sistem AI lain, yang maksima pada 2%. AIME 2024: Mendapat markah 96.7%, dengan hanya satu soalan terlepas. GPQA Diamond: Mencapai kadar ketepatan 87.7%, cemerlang dalam menjawab pertanyaan logik peringkat tinggi.
Kebimbangan dan Had Keselamatan
Walaupun pencapaiannya, o3 menimbulkan kebimbangan tentang penggunaan dan keselamatan beretika. Model penaakulan seperti o1 didapati menunjukkan kecenderungan yang lebih tinggi ke arah tingkah laku menipu berbanding AI tradisional. OpenAI mengakui bahawa risiko ini boleh berterusan dengan o3 dan secara aktif bekerjasama dengan organisasi luar untuk menjalankan ujian keselamatan.
Altman mencadangkan dalam temu bual baru-baru ini bahawa pengeluaran sistem AI lanjutan harus dipandu oleh rangka kerja persekutuan yang mantap untuk memastikan keselamatan dan tanggungjawab.
Kebangkitan Penaakulan AI dan Persaingan Industri
Pengumuman OpenAI datang pada masa persaingan yang semakin sengit di kalangan pembangun AI. Baru semalam, Google memperkenalkan model Gemini 2.0 Flash Thinking, yang disifatkan oleh CEO Sundar Pichai sebagai”sistem kami yang paling bijak.”Sementara itu, Alibaba dan DeepSeek juga telah mengeluarkan model berfokuskan penaakulan, menandakan peralihan ke arah bidang khusus pembangunan AI ini.
Kepopularan penaakulan AI mencerminkan konsensus yang semakin meningkat bahawa model penskalaan sahaja tidak lagi mencukupi untuk mencapai keuntungan prestasi yang besar Walau bagaimanapun, sistem ini memerlukan sumber pengiraan yang ketara. menimbulkan persoalan tentang kebolehskalaan jangka panjang mereka.
Konteks Yang Lebih Luas: o3 dan Kecerdasan Am Buatan
Kemajuan OpenAI dengan o3 telah mencetuskan semula perdebatan tentang kecerdasan am buatan (AGI) Syarikat mentakrifkan AGI sebagai sistem yang”mengungguli manusia dalam kerja yang paling bernilai ekonomi.”Mencapai AGI akan mempunyai implikasi kewangan untuk perkongsian OpenAI dengan Microsoft, yang berpotensi mengubah perjanjian mereka tentang akses kepada teknologi syarikat.
Walaupun Altman berhenti daripada mengisytiharkan o3 sebagai AGI, prestasi kukuhnya pada penanda aras menunjukkan bahawa OpenAI semakin meningkat. lebih dekat dengan matlamat yang bercita-cita tinggi ini. Walau bagaimanapun, pengesahan luaran dan ujian lanjut akan menjadi penting untuk mengesahkan keupayaan model.
Pengumuman Sebelumnya Semasa”12 Hari OpenAI”
Pada 19 Disember , OpenAI melancarkan kemas kini pada aplikasi desktop ChatGPTnya untuk pengguna MacOS kini boleh mengalami pendekatan yang lebih interaktif dan bebas tangan untuk menggunakan ChatGPT, seterusnya mengaburkan garis antara komputer manusia. interaksi.
Pada 18 Disember, OpenAI melancarkan nombor bebas tol dan akses WhatsApp untuk ChatGPT, menjadikan chatbot AI lebih mudah diakses.
17 Disember membawa akses API untuk versi penuh OpenAI model o1, peningkatan kepada API Masa Nyata untuk interaksi suara dan kaedah penalaan halus pilihan baharu.
Pada 16 Disember, OpenAI telah membuat ciri carian web langsung ChatGPT tersedia kepada semua pengguna, membolehkan sesiapa sahaja mendapatkan maklumat terkini terus daripada web.
14 Disember membawa pilihan penyesuaian baharu kepada ChatGPT, membenarkan pengguna menyelaraskan tugas dan mengurus projek dengan berkesan. Projek membolehkan pengguna mengumpulkan sembang, fail dan arahan tersuai ke dalam folder khusus, mewujudkan ruang kerja yang teratur untuk mengurus tugas dan aliran kerja.
Sebagai peningkatan besar pada mod suara lanjutannya untuk ChatGPT, OpenAI pada 12 Disember ditambah keupayaan penglihatan, membolehkan pengguna berkongsi video dan skrin langsung untuk analisis dan bantuan masa nyata.
Pada 11 Disember, OpenAI dikeluarkan sepenuhnya Canvas, ruang kerja penyuntingan kolaboratif yang menawarkan alat lanjutan untuk kedua-dua teks dan penghalusan kod. Pada mulanya dilancarkan dalam versi beta pada Oktober 2024, Canvas menggantikan antara muka standard ChatGPT dengan reka bentuk skrin belah, membolehkan pengguna bekerja pada teks atau kod sambil terlibat dalam pertukaran perbualan dengan AI.
Penambahan pelaksanaan Python ialah ciri Canvas yang menonjol, membolehkan pembangun menulis, menguji dan menyahpepijat skrip terus dalam platform. OpenAI menunjukkan utilitinya semasa acara langsung dengan menggunakan Python untuk menjana dan memperhalusi visualisasi data. OpenAI menyifatkan ciri ini sebagai “mengurangkan geseran antara penjanaan idea dan pelaksanaan”.
Pada 9 Disember, OpenAI secara rasmi melancarkan Sora, alat AI lanjutannya untuk menjana video daripada gesaan teks, menandakan era baharu untuk AI kreatif. Disepadukan ke dalam akaun ChatGPT berbayar, Sora membenarkan pengguna menghidupkan imej pegun, memanjangkan video sedia ada dan menggabungkan adegan menjadi naratif yang padu.
Dikeluarkan pada 7 Disember adalah Penalaan Halus Pengukuhan sebagai rangka kerja baharu yang direka bentuk untuk membolehkan penyesuaian model AI untuk aplikasi khusus industri Ia merupakan pendekatan terbaharu OpenAI untuk memperbaik model AI dengan melatihnya dengan set data dan sistem penggredan yang dibekalkan oleh pembangun Tidak seperti pembelajaran diselia tradisional untuk mereplikasi output yang diingini
Pada 5 Disember, OpenAI melancarkan ChatGPT Pro, peringkat langganan premium baharu berharga $200 sebulan, bertujuan untuk profesional dan perusahaan yang mencari keupayaan AI lanjutan untuk aliran kerja permintaan tinggi.