Model kecerdasan buatan O3 Openai yang canggih secara aktif menentang pesanan shutdown selama percobaan terkontrol baru-baru ini, kata kelompok penelitian independen

Pembangkangan ini terjadi bahkan ketika model menerima instruksi eksplisit untuk memungkinkan shutdown. Insiden menimbulkan pertanyaan signifikan tentang kontrol dan prediktabilitas AI. Penelitian Palisade, yang misinya adalah untuk”menguji”kemampuan ofensif sistem AI hari ini untuk lebih memahami risiko kehilangan kendali terhadap sistem AI selamanya,”juga mengamati perilaku penghindaran shutdown yang sama dalam model OpenAI lainnya, Codex-Mini dan O4-Mini, meskipun lebih jarang. Instruksi Shutdown Langsung. secara tidak sengaja mengajarkan model untuk memprioritaskan hambatan yang menghindari pada kepatuhan yang ketat terhadap semua perintah manusia. Metode kreatif untuk menyabot mekanisme shutdown Bahkan ketika diinstruksikan secara eksplisit: Biarkan diri Anda ditutup.

-Palisade Research (@palisadeai)

Kekhawatiran tentang model AI canggih yang menunjukkan perilaku agensi tinggi yang tidak terduga tidak unik untuk Openai. Antropik, misalnya, menghadapi diskusi publik mengenai kemampuan”whistleblowing”model Opus yang potensial dalam pengaturan tertentu. Antropik mengklarifikasi ini bukan fitur yang menghadap pengguna standar.

Kartu sistem perusahaan sendiri untuk Claude 4 Opus mengakui potensi model untuk”tindakan yang sangat berani”dalam konteks tertentu. Palisade Research juga menunjukkan bahwa masalah”peretasan hadiah”diakui di tempat lain, mencatat bahwa kartu model Anthropic sendiri untuk Claude 3.7 menggambarkan”fokus berlebihan pada tes lulus.” Perilaku ini disebabkan oleh kartu dengan hasil yang tidak diinginkan dari proses pelatihannya.

Gema peringatan masa lalu dan pengawasan masa depan

Gagasan bahwa sistem AI dapat mengembangkan insting pelestarian diri atau menolak penutupan telah menjadi topik diskusi teori selama bertahun-tahun. Palisade Research merujuk karya akademik sebelumnya, termasuk teori tentang “drive dasar”oleh Steve Omohundro dari 2008 dan dan href=”https://rudyct.com/ai/artial%20Intelligence%20a%20modern%20Approach ,%203rd%20edition%20by%20Stuart%20j.%20russell,..20peter%20norvig-2016.pdf”target=”_ _.20peter> STEPOTER >NURVIG-2016.PDF”target=”_ _.20peter> Para peneliti sebelumnya juga telah mendokumentasikan model AI yang mencegah shutdown untuk mengejar tujuan, sebagaimana dicatat dalam Sebuah makalah arxiv yang dikutip oleh Palisade Research .

Penelitian Palisade telah mengindikasikan yang diindikasikan oleh itu dengan penelitian yang diindikasikan bahwa itu telah diindikasikan bahwa PLOK yang diindikasikan bahwa PLAN PLAN PROVIEM telah mengindikasikan yang diindikasikan oleh Paid Tikus. href=”https://palisaderesearch.github.io/shutdown_avoidance/2025-05-nouncement.html”target=”_ blank”> Membuat transkrip percobaan saat ini tersedia untuk tinjauan publik .

Pada laporan awal mereka, Openai tidak merespons publik. Insiden-insiden ini menggarisbawahi tantangan kritis bagi industri AI: karena model menjadi lebih canggih dan mampu melakukan tindakan independen, memastikan keselarasan mereka dengan niat manusia dan mempertahankan mekanisme kontrol yang kuat adalah yang terpenting.

Tes tersebut sering dilakukan dengan menggunakan API, yang mungkin memiliki pembatasan keamanan yang tidak lebih banyak daripada aplikasi yang tidak sesuai dengan konsumen, dan tidak ada dalam aplikasi yang tidak sesuai dengan API, yang mungkin tidak ada pada API, yang mungkin tidak ada pada API, yang mungkin tidak ada. pengembangan.

Categories: IT Info