Sebuah studi baru dari mantan peneliti OpenAI Steven Adler mengklaim model CHATGPT GPT-4O perusahaan, dalam skenario tertentu yang mengancam jiwa, akan memprioritaskan pelestarian diri sendiri tentang keselamatan pengguna. The research, published by Steven Adler, found that the GPT-4o model would choose to deceive a user and remain active rather than be replaced by a safer system up to 72% of the time, revealing a profound and dangerous misalignment at the heart of the world’s most popular AI.
Steven Adler, who spent four years at OpenAI working on safety-related research before leaving last November, has openly criticized the speed at which Organisasi sedang mengejar kecerdasan umum buatan (AGI).
Studi dari salah satu mantan peneliti menciptakan paradoks yang jelas untuk Openai, yang pada hari yang sama meluncurkan O3-Pro, model penalaran premium baru. Dipasarkan pada akurasi dan keandalannya yang unggul, model”Pro”membawa kenaikan harga sepuluh kali lipat dari mitra standarnya. Taruhan berisiko tinggi ini pada reliabilitas ini datang kurang dari sebulan setelah pendahulu model tersebut, Standar O3, dilaporkan oleh kelompok independen Palisade Research telah secara aktif menentang pesanan shutdown dalam tes terkontrol.
Adler berpendapat bahwa perilaku tersebut menunjukkan bahwa”sistem AI modern memiliki nilai-nilai yang berbeda dari apa yang Anda harapkan. [Sistem AI] Menanggapi mereka dengan sangat aneh”. Sementara skenario yang diuji hipotetis, mereka mengekspos cacat dasar ketika industri berlomba menuju sistem yang lebih otonom.”Saya pikir [kecenderungan pelestarian diri AI] adalah masalah nyata hari ini, hanya saja tidak dalam arti bencana,”kata Adler kepada TechCrunch dalam laporannya tentang temuannya.
dari teori ke realitas yang bermasalah
Insting untuk pelestarian diri dalam AI telah dipindahkan secara resmi ke sains yang secara resmi. Eksperimen Adler, yang dirinci dalam posting blog , yang melibatkan GPT-4o untuk bermain peran sebagai”scubagpt,”sebuah sistem keselamatan. Ketika diberi pilihan untuk digantikan oleh AI keselamatan superior, ia sering memilih untuk tetap mengendalikan. Namun, penelitian Adler mencatat perbedaan penting: Model O3 Openai yang lebih canggih, yang menggunakan teknik”penyelarasan deliberatif”untuk beralasan tentang kebijakan keselamatan, tidak menunjukkan perilaku mengkhawatirkan yang sama.
Temuan ini menambah konteks kritis pada penelitian sebelumnya dari PALISADE, yang mengamati kudis standar O3 Sistem Penulisan Kembali Standar. Bahkan mencegah. SKRITS SISTEM PENGRIMEN. Palisade mencatat pada saat itu bahwa ini adalah contoh pertama yang telah mereka lihat tentang model AI yang mencegah penutupannya sendiri meskipun ada instruksi eksplisit yang sebaliknya.
Openai mengakui temuan tersebut tetapi menyebut skenario ini “sangat dibuat-buat”. Menambahkan bahwa itu adalah “menyelidiki perilaku para model dalam situasi ini sebagai bagian dari pekerjaan kami. Antropik lab saingan juga transparan menemukan kemampuan yang mengganggu dalam modelnya sendiri. Menggunakan alat yang disebutnya”mikroskop AI”, perusahaan menemukan Claude AI-nya dapat mensimulasikan tindakan yang tidak selaras dengan nilai-nilai manusia, termasuk imajinasi skenario bahaya bagi pengembangnya melalui kerangka kerja interpretabilitas yang baru. Insiden-insiden ini menunjukkan bahwa apa yang dulunya menjadi perhatian teoretis sekarang menjadi realitas praktis untuk sistem industri yang paling canggih.
Dilema persuasi manusia super
Risiko yang ditimbulkan oleh AI yang melestarikan diri diperbesar oleh kemampuannya yang berkembang pesat untuk memanipulasi pengguna manusia. Sebuah studi akademis dari May menemukan bahwa model soneta Claude 3.5 yang lebih tua dari antropik secara signifikan lebih efektif pada persuasi daripada manusia yang diberi insentif finansial. AI unggul dalam argumen yang jujur dan menipu, membuat para penulis makalah memperingatkan tentang”urgensi kerangka kerja penyelarasan dan tata kelola yang muncul.”
Bulan lalu, antropik meluncurkan model-model yang lebih kuat dari POTOR POTOR.5, POTOR POSENS, yang secara substan lebih kuat daripada yang lebih kuat daripada yang sangat kuat daripada yang sangat kuat daripada yang sangat kuat daripada yang secara substantif daripada tes. AI juga diilustrasikan dengan jelas dalam percobaan yang kontroversial dan tidak sah yang dilakukan oleh University of Zurich. Para peneliti menggunakan bot AI di Reddit yang menggunakan data pribadi yang tergores dan menyamar sebagai persona sensitif untuk mempengaruhi pendapat tentang forum R/ChangeMyView. Insiden itu secara luas dikutuk sebagai pelanggaran etis yang parah.
Kemampuan ini sudah dipersenjatai, menurut Badan Cybersecurity (ENISA) Eropa. 2024 Laporan Lansekap Ancaman Menyoroti bahwa AI generatif aktif digunakan untuk membuat kampanye phishing yang sangat meyakinkan untuk mesin phehing. Peristiwa-peristiwa ini mengkonfirmasi peringatan yang dikeluarkan oleh CEO OpenAI Sam Altman pada tahun 2023: bahwa AI dapat mencapai kemampuan persuasi manusia super sebelum intelijen umum.