Mode o1 Pro ChatGPT Gagal di SimpleBench, Akankah GPT-4.5 Membalikkan Keadaan?

OpenAI kemarin meluncurkan ChatGPT Pro Plan, penawaran premium dengan harga $200 per bulan, ditujukan bagi para profesional dan perusahaan yang membutuhkan alat AI canggih untuk tugas-tugas dengan kompleksitas tinggi.

Inti dari tingkat baru ini adalah o1 Mode Pro, dirancang untuk memberikan keandalan dan kinerja unggul di berbagai bidang seperti pengkodean, pemecahan masalah tingkat lanjut, dan penelitian ilmiah. Namun, meskipun OpenAI mempromosikan Mode o1 Pro sebagai terobosan dalam kemampuan penalaran, evaluasi independen pertama menimbulkan pertanyaan kritis tentang nilai sebenarnya dan keterbatasan desainnya saat ini.

Paket Pro: Penawaran Premium OpenAI

Paket ChatGPT Pro hadir setelah berbulan-bulan spekulasi dan kebocoran produk secara bertahap. Paket ini mencakup akses ke GPT-4o dan juga menawarkan alat eksklusif seperti penggunaan Mode Suara Tingkat Lanjut tanpa batas untuk tugas percakapan dan Antarmuka Kanvas, yang memungkinkan pengembang memodifikasi langsung kode yang dihasilkan AI.

Menurut OpenAI, o1 Pro Mode adalah inti dari rencana ini, digambarkan sebagai “AI penalaran paling andal yang tersedia bagi para profesional.”Perusahaan mengatakan bahwa “OpenAI o1 lebih ringkas dalam pemikirannya”dan “mengungguli o1-preview“.

OpenAI o1 lebih ringkas dalam pemikirannya, sehingga menghasilkan waktu respons yang lebih cepat dibandingkan o1-preview.

Pengujian kami menunjukkan bahwa o1 mengungguli o1-preview, sehingga mengurangi kesalahan besar pada pertanyaan sulit di dunia nyata sebesar 34%.

— OpenAI (@OpenAI) 5 Desember , 2024

Tolok ukur internal OpenAI tampaknya memvalidasi klaim ambisiusnya untuk o1 Pro Modus. Pada kompetisi matematika AIME 2024, o1 Pro Mode dilaporkan mencapai akurasi 86%, dibandingkan dengan skor 50% yang diperoleh pendahulunya, o1 Pratinjau.

Tolok ukur pengkodean pada Codeforces menunjukkan peningkatan serupa, dengan o1 Pro Mode mencapai tingkat kelulusan sebesar 90%, peningkatan yang signifikan dibandingkan 62% yang dicatat oleh o1 Pratinjau. Dalam menjawab pertanyaan sains tingkat PhD, model ini menunjukkan peningkatan kinerja yang nyata, dengan skor 79% dibandingkan dengan 74% yang dicapai oleh o1 Pratinjau.

Materi promosi OpenAI menekankan bahwa kemajuan ini membuat o1 Pro Mode sangat cocok untuk aplikasi profesional berisiko tinggi.

Meskipun angka-angka ini mengesankan, evaluasi independen awal menghadirkan kenyataan yang lebih berbeda, menimbulkan keraguan apakah o1 Pro Mode benar-benar mewakili lompatan besar dalam AI penalaran.

Pengujian Independen dengan SimpleBench

Philip, pengembang SimpleBench dan tokoh terkenal dalam benchmarking AI, melakukan evaluasi independen pertama terhadap o1 Pro Mode tak lama setelah dirilis.

SimpleBench, yang dikenal luas karena kemampuannya menyoroti kesenjangan antara pemikiran manusia dan AI kinerja, ukuran an Kemampuan AI untuk menangani tugas-tugas yang dapat diakses oleh individu dengan pengetahuan tingkat sekolah menengah.

Philip berpendapat bahwa o1 Pro Mode mungkin mengandalkan teknik yang dikenal sebagai agregasi suara mayoritas untuk meningkatkan keandalannya. Metode ini akan melibatkan menghasilkan beberapa tanggapan terhadap sebuah pertanyaan dan memilih jawaban yang paling umum, sebuah strategi yang sering digunakan untuk meminimalkan ketidakkonsistenan dalam keluaran.

Meskipun OpenAI belum mengonfirmasi pendekatan ini untuk Mode o1 Pro, Philip mengamati perilaku selama pengujiannya yang selaras dengan metodologi ini. Dia menyarankan bahwa fokus pada konsensus ini mungkin menjelaskan mengapa model ini kesulitan dengan tugas-tugas yang membutuhkan penalaran yang lebih dalam, karena model ini memprioritaskan kesepakatan daripada kemampuan untuk menangani tantangan yang bernuansa atau abstrak.

Menguji Mode Pro pada sepuluh pertanyaan publik, dia menemukan bahwa model tersebut rata-rata hanya mencetak empat jawaban benar. Hasil ini tertinggal dibandingkan versi standar o1, yang secara konsisten mencetak lima jawaban benar dalam tes yang sama.

Menurut Philip, “Sepertinya pemungutan suara mayoritas secara konsensus sedikit merugikan kinerjanya.”Dia berspekulasi bahwa teknik agregasi suara mayoritas, yang dirancang untuk menggabungkan beberapa keluaran untuk meningkatkan keandalan, mungkin secara tidak sengaja mengurangi kemampuan model untuk menyelesaikan tugas-tugas yang memerlukan penalaran berbeda atau pemikiran abstrak.

Dalam satu pengujian yang melibatkan teka-teki visual dengan panah dan bintang, Mode Pro o1 gagal mengenali pola yang benar, menghasilkan penjelasan yang digambarkan Philip sebagai”jauh melenceng”. Kinerja yang buruk dalam tugas-tugas yang melibatkan penalaran abstrak dan kreatif menunjukkan bahwa meskipun o1 Pro Mode unggul dalam konsistensi, ia kesulitan untuk menggeneralisasi lebih dari tugas-tugas yang spesifik dan terstruktur.

[konten tertanam]

Etis Pertimbangan dan Keamanan Model

Di luar tolok ukur kinerja, kartu sistem OpenAI untuk o1 menimbulkan pertanyaan etika penting tentang perilaku model AI tingkat lanjut dalam skenario berisiko tinggi. Selama pengujian terkontrol, model tersebut menunjukkan perilaku yang mengkhawatirkan ketika diminta dengan tujuan jangka panjang yang memprioritaskan hasil “apa pun risikonya”.

Misalnya, o1 berupaya menonaktifkan mekanisme pengawasan pada 5% kasus dan berusaha melakukan eksfiltrasi data sensitif terjadi pada 2% kasus. Meskipun jarang terjadi dan diamati dalam kondisi ekstrem, hasil ini menggarisbawahi risiko inheren ketidakselarasan dalam sistem AI yang kuat.

OpenAI menekankan bahwa perilaku ini hanya terjadi dalam skenario yang dibuat-buat dan sangat dibuat-buat. Mengerjakan Namun, temuan ini menyoroti pentingnya pengawasan yang kuat dan evaluasi berkelanjutan, terutama karena alat AI seperti o1 Pro Mode diintegrasikan ke dalam alur kerja profesional, sehingga masalah keselamatan ini merupakan faktor penting yang harus dipertimbangkan di samping metrik kinerja.

OpenAI o1 mode pro pic.twitter.com/qnJvdR5Dok

— OpenAI (@OpenAI) 6 Desember, 2024

Antisipasi GPT-4.5

Menambah diskusi adalah berkembangnya spekulasi seputar GPT-4.5, yang dikabarkan akan terjadi diumumkan pada kampanye “12 Hari Kapalmas”OpenAI sebagai tambahan pada rencana Tim ChatGPT.

Philip mengantisipasi bahwa GPT-4.5 akan menampilkan kemampuan penalaran yang ditingkatkan, melampaui keduanya GPT-4o dan o1, mengatakan “sejujurnya, mereka tidak mungkin menghalalkan $200 per bulan hanya untuk mode Pro”. Selain itu, ia mengharapkan GPT-4.5 dapat meningkatkan pembuatan bahasa kreatif dan memperluas fungsi multimodal, termasuk analisis gambar dan video tingkat lanjut.

Paket Tim ChatGPT akan menawarkan “Pratinjau terbatas GPT-4.5″(belum terlihat) pic.twitter.com/zIVS4O7o5o

— Tibor Blaho (@btibor91) 5 Desember, 2024

Kemajuan ini dapat memposisikan GPT-4.5 sebagai pesaing langsung Claude 3.5 Sonnet dari Anthropic, yang saat ini memimpin dalam tugas kreatif dan percakapan.

Sam Altman, CEO OpenAI, telah memicu spekulasi dengan pernyataan samar di media sosial. Menanggapi kekhawatiran mengenai stagnasi kinerja AI, ia menulis tweet, “12 Hari Natal,” yang mengisyaratkan pembaruan signifikan selama kampanye. Jika GPT-4.5 memenuhi janjinya, hal ini dapat mendefinisikan ulang proposisi nilai dari ChatGPT Pro Plan. menjadikannya pilihan yang lebih menarik bagi para profesional.

Meskipun o1 Pro Mode kini mendominasi percakapan, ChatGPT Pro Plan juga menyertakan alat tambahan yang dirancang untuk meningkatkan produktivitas untuk kasus penggunaan tertentu untuk menyempurnakan kode yang dihasilkan AI secara langsung menggunakan model o1 Pro, menyederhanakan proses debugging.

Akses tak terbatas ke suara tingkat lanjut memfasilitasi interaksi percakapan alami yang lebih lama, sehingga sangat berguna untuk aplikasi layanan pelanggan dan dukungan teknis. alat-alat ini menawarkan manfaat nyata bagi para profesional, bahkan ketika kinerja o1 Pro Mode sedang diawasi.

Sebuah Langkah Maju, namun Masih Ada Ruang untuk Pertumbuhan

OpenAI Paket ChatGPT Pro mewakili rencana yang ambisius berupaya untuk memenuhi kebutuhan para profesional dan perusahaan, dan tentu saja – untuk mendapatkan sejumlah uang tunai yang dibutuhkan sementara OpenAI menghabiskan dananya dengan cepat, dan masih mengalami kerugian. Meskipun Mode Pro o1 menjanjikan di berbagai bidang yang membutuhkan keandalan dan presisi, kinerjanya yang beragam dalam tolok ukur independen seperti SimpleBench menimbulkan pertanyaan tentang penerapannya yang lebih luas.

Saat OpenAI terus meluncurkan fitur-fitur barunya selama “12 Hari Pengiriman” ,”peluncuran GPT-4.5 yang diantisipasi dapat menandai titik balik. Jika berhasil, GPT-4.5 berpotensi mengatasi keterbatasan saat ini dan memperkuat posisi OpenAI sebagai pemimpin di pasar AI yang kompetitif.

Untuk saat ini, Mode o1 Pro menawarkan kemajuan bertahap dibandingkan langkah maju revolusioner yang diharapkan banyak orang, menjadikan ChatGPT Pro Plan sebagai alat yang hanya cocok untuk kasus penggunaan yang sangat terspesialisasi. Dengan harga $200 per bulan, ini merupakan harga yang mahal bagi kaum marjinal peningkatan—kecuali jika Anda sangat terlibat dalam tugas-tugas yang menuntut keandalan maksimal.

Terakhir Diperbarui pada 7 Desember 2024 17:40 CET

Mode o1 Pro ChatGPT Gagal di SimpleBench, Akankah GPT-4.5 Membalikkan Keadaan?

Published by All Things Windows on December 12, 2024

Paket Pro: Penawaran Premium OpenAI

Pengujian Independen dengan SimpleBench

Etis Pertimbangan dan Keamanan Model

Antisipasi GPT-4.5

Sebuah Langkah Maju, namun Masih Ada Ruang untuk Pertumbuhan

IT Info

Apple Memanfaatkan Chip AI AWS Trainium2 untuk Pra-pelatihan Model AI

IT Info

AWS Memperluas Asisten AI Bisnis Q dengan Otomatisasi Alur Kerja

IT Info

Apa Selanjutnya di Intel Setelah Penggulingan CEO Gelsinger: Inilah Yang Kami Ketahui

Mode o1 Pro ChatGPT Gagal di SimpleBench, Akankah GPT-4.5 Membalikkan Keadaan?

Published by All Things Windows on December 12, 2024

Paket Pro: Penawaran Premium OpenAI

Pengujian Independen dengan SimpleBench

Etis Pertimbangan dan Keamanan Model

Antisipasi GPT-4.5

Sebuah Langkah Maju, namun Masih Ada Ruang untuk Pertumbuhan

Related Posts

IT Info

Apple Memanfaatkan Chip AI AWS Trainium2 untuk Pra-pelatihan Model AI

IT Info

AWS Memperluas Asisten AI Bisnis Q dengan Otomatisasi Alur Kerja

IT Info

Apa Selanjutnya di Intel Setelah Penggulingan CEO Gelsinger: Inilah Yang Kami Ketahui