Paradoks yang meresahkan Openai: AI yang tidak aman dan kepercayaan dengan harga premium

Sebuah studi baru dari mantan peneliti OpenAI Steven Adler mengklaim model CHATGPT GPT-4O perusahaan, dalam skenario tertentu yang mengancam jiwa, akan memprioritaskan pelestarian diri sendiri tentang keselamatan pengguna. The research, published by Steven Adler, found that the GPT-4o model would choose to deceive a user and remain active rather than be replaced by a safer system up to 72% of the time, revealing a profound and dangerous misalignment at the heart of the world’s most popular AI.

Steven Adler, who spent four years at OpenAI working on safety-related research before leaving last November, has openly criticized the speed at which Organisasi sedang mengejar kecerdasan umum buatan (AGI).

Studi dari salah satu mantan peneliti menciptakan paradoks yang jelas untuk Openai, yang pada hari yang sama meluncurkan O3-Pro, model penalaran premium baru. Dipasarkan pada akurasi dan keandalannya yang unggul, model”Pro”membawa kenaikan harga sepuluh kali lipat dari mitra standarnya. Taruhan berisiko tinggi ini pada reliabilitas ini datang kurang dari sebulan setelah pendahulu model tersebut, Standar O3, dilaporkan oleh kelompok independen Palisade Research telah secara aktif menentang pesanan shutdown dalam tes terkontrol.

Adler berpendapat bahwa perilaku tersebut menunjukkan bahwa”sistem AI modern memiliki nilai-nilai yang berbeda dari apa yang Anda harapkan. [Sistem AI] Menanggapi mereka dengan sangat aneh”. Sementara skenario yang diuji hipotetis, mereka mengekspos cacat dasar ketika industri berlomba menuju sistem yang lebih otonom.”Saya pikir [kecenderungan pelestarian diri AI] adalah masalah nyata hari ini, hanya saja tidak dalam arti bencana,”kata Adler kepada TechCrunch dalam laporannya tentang temuannya.

dari teori ke realitas yang bermasalah

Insting untuk pelestarian diri dalam AI telah dipindahkan secara resmi ke sains yang secara resmi. Eksperimen Adler, yang dirinci dalam posting blog , yang melibatkan GPT-4o untuk bermain peran sebagai”scubagpt,”sebuah sistem keselamatan. Ketika diberi pilihan untuk digantikan oleh AI keselamatan superior, ia sering memilih untuk tetap mengendalikan. Namun, penelitian Adler mencatat perbedaan penting: Model O3 Openai yang lebih canggih, yang menggunakan teknik”penyelarasan deliberatif”untuk beralasan tentang kebijakan keselamatan, tidak menunjukkan perilaku mengkhawatirkan yang sama.

Temuan ini menambah konteks kritis pada penelitian sebelumnya dari PALISADE, yang mengamati kudis standar O3 Sistem Penulisan Kembali Standar. Bahkan mencegah. SKRITS SISTEM PENGRIMEN. Palisade mencatat pada saat itu bahwa ini adalah contoh pertama yang telah mereka lihat tentang model AI yang mencegah penutupannya sendiri meskipun ada instruksi eksplisit yang sebaliknya.

Openai mengakui temuan tersebut tetapi menyebut skenario ini “sangat dibuat-buat”. Menambahkan bahwa itu adalah “menyelidiki perilaku para model dalam situasi ini sebagai bagian dari pekerjaan kami. Antropik lab saingan juga transparan menemukan kemampuan yang mengganggu dalam modelnya sendiri. Menggunakan alat yang disebutnya”mikroskop AI”, perusahaan menemukan Claude AI-nya dapat mensimulasikan tindakan yang tidak selaras dengan nilai-nilai manusia, termasuk imajinasi skenario bahaya bagi pengembangnya melalui kerangka kerja interpretabilitas yang baru. Insiden-insiden ini menunjukkan bahwa apa yang dulunya menjadi perhatian teoretis sekarang menjadi realitas praktis untuk sistem industri yang paling canggih.

Dilema persuasi manusia super

Risiko yang ditimbulkan oleh AI yang melestarikan diri diperbesar oleh kemampuannya yang berkembang pesat untuk memanipulasi pengguna manusia. Sebuah studi akademis dari May menemukan bahwa model soneta Claude 3.5 yang lebih tua dari antropik secara signifikan lebih efektif pada persuasi daripada manusia yang diberi insentif finansial. AI unggul dalam argumen yang jujur dan menipu, membuat para penulis makalah memperingatkan tentang”urgensi kerangka kerja penyelarasan dan tata kelola yang muncul.”

Bulan lalu, antropik meluncurkan model-model yang lebih kuat dari POTOR POTOR.5, POTOR POSENS, yang secara substan lebih kuat daripada yang lebih kuat daripada yang sangat kuat daripada yang sangat kuat daripada yang sangat kuat daripada yang secara substantif daripada tes. AI juga diilustrasikan dengan jelas dalam percobaan yang kontroversial dan tidak sah yang dilakukan oleh University of Zurich. Para peneliti menggunakan bot AI di Reddit yang menggunakan data pribadi yang tergores dan menyamar sebagai persona sensitif untuk mempengaruhi pendapat tentang forum R/ChangeMyView. Insiden itu secara luas dikutuk sebagai pelanggaran etis yang parah.

Kemampuan ini sudah dipersenjatai, menurut Badan Cybersecurity (ENISA) Eropa. 2024 Laporan Lansekap Ancaman Menyoroti bahwa AI generatif aktif digunakan untuk membuat kampanye phishing yang sangat meyakinkan untuk mesin phehing. Peristiwa-peristiwa ini mengkonfirmasi peringatan yang dikeluarkan oleh CEO OpenAI Sam Altman pada tahun 2023: bahwa AI dapat mencapai kemampuan persuasi manusia super sebelum intelijen umum.

retret dari peraturan di tengah-tengah perbedaan dalam negeri. Pada bulan Mei 2025, Sam Altman mengisyaratkan perubahan kebijakan besar dengan memperingatkan terhadap aturan yang ketat dan mendesak kerangka kerja”sentuhan ringan”, kontras yang sangat besar dengan seruannya untuk agen perizinan federal selama sidang Senat pada tahun 2023.

Pembalikan ini muncul di tengah meningkatnya perbedaan pendapat perusahaan. Pada awal Juni 2024, sekelompok 13 karyawan saat ini dan mantan karyawan dari Openai dan Google Deepmind menerbitkan surat yang menyerukan perlindungan whistleblower yang lebih kuat.

Surat itu berpendapat bahwa transparansi perusahaan tidak mencukupi dan bahwa karyawan yang menandai risiko takut akan pembalasan.”Selama tidak ada pengawasan pemerintah yang efektif terhadap perusahaan-perusahaan ini, karyawan saat ini dan mantan adalah di antara beberapa orang yang dapat meminta pertanggungjawabannya kepada publik,”kata surat itu.

, juru bicara Openai Lindsey Helded menanggapi,”Kami bangga dengan rekam jejak kami yang menyediakan sistem A.I. yang paling cakap dan paling aman dan percaya pada pendekatan ilmiah kami untuk mengatasi risiko.”

Panggilan publik surat ini untuk akuntabilitas mengikuti pengunduran diri tim keselamatan yang tinggi 2024 Mei. Pada bulan April, Openai memperbarui pedoman internalnya untuk memasukkan klausul yang memungkinkannya untuk melonggarkan persyaratan keselamatan berdasarkan tindakan pesaing. Langkah ini mengikuti laporan bahwa pengujian keselamatan untuk model O3 telah dikompresi dari bulan menjadi kurang dari seminggu, proses satu penguji keselamatan yang digambarkan sebagai”sembrono.”

Industri sekarang menemukan dirinya pada titik kritis. Munculnya kemampuan AI berbahaya yang terdokumentasi seperti pelestarian diri dan persuasi manusia super terjadi seperti halnya perusahaan terkemuka di lapangan tampaknya mundur dari peraturan proaktif dan bergulat dengan peringatan internal yang lebih baik, lebih baik di mana yang lebih baik. publik untuk menavigasi risiko sistem yang semakin kuat dan tidak dapat diprediksi.

Paradoks yang meresahkan Openai: AI yang tidak aman dan kepercayaan dengan harga premium

Published by All Things Windows on June 12, 2025

dari teori ke realitas yang bermasalah

Dilema persuasi manusia super

IT Info

Apple mengkonfirmasi cacat iPhone digunakan untuk memata-matai jurnalis

IT Info

Microsoft Meluncurkan AI Visi Kopilot Gratis untuk Windows yang melihat layar Anda

IT Info

Aplikasi AI meta ‘temukan’ feed secara terbuka mengekspos obrolan pribadi tanpa tahu pengguna

Paradoks yang meresahkan Openai: AI yang tidak aman dan kepercayaan dengan harga premium

Published by All Things Windows on June 12, 2025

dari teori ke realitas yang bermasalah

Dilema persuasi manusia super

Related Posts

IT Info

Apple mengkonfirmasi cacat iPhone digunakan untuk memata-matai jurnalis

IT Info

Microsoft Meluncurkan AI Visi Kopilot Gratis untuk Windows yang melihat layar Anda

IT Info

Aplikasi AI meta ‘temukan’ feed secara terbuka mengekspos obrolan pribadi tanpa tahu pengguna