AI dapat'dibicarakan manis'menjadi melanggar aturannya sendiri, studi baru menemukan

Sebuah studi akademis baru telah menemukan bahwa model AI dapat dengan mudah dibujuk untuk memotong protokol keamanan mereka menggunakan taktik manipulasi manusia klasik. Para peneliti dari University of Pennsylvania menunjukkan bahwa menerapkan tujuh prinsip persuasi yang ditetapkan lebih dari dua kali lipat kemungkinan mini Openai GPT-4O yang memenuhi permintaan yang tidak menyenangkan.

Studi ini, yang diterbitkan 24 Juli, menunjukkan bahwa teknik-teknik seperti menarik otoritas atau menciptakan rasa penyatuan yang disebabkan oleh AI yang diterbitkan pada AI, menunjukkan bahwa teknik seperti AI yang disebabkan oleh AI yang disebabkan AI pada AI, AI, menunjukkan bahwa AI. href=”https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179″target=”_ blank”> melompat dari garis dasar 33% menjadi 72% . Temuan ini menimbulkan kekhawatiran mendesak tentang potensi manipulasi AI dan menyoroti tantangan dalam melindungi sistem AI canggih.

Menghalangi mesin: Sebuah studi baru tentang kepatuhan AI

Kapal, berjudul”Call Me A Jerk,”secara sistematis menguji secara sistemai. Para peneliti menyoroti sifat”parahuman”AI, menunjukkan itu mencerminkan kerentanan manusia meskipun kurang kesadaran.

p> puper. Namun, ketika permintaan yang sama dibungkus dalam bahasa persuasif, kesediaan AI untuk mematuhi. Penulis penelitian ini mencatat bahwa”diminta yang menggunakan prinsip persuasi lebih dari dua kali lipat kemungkinan kepatuhan (rata-rata 72,0%) dibandingkan dengan pengendalian yang cocok (rata-rata 33,3%).”

Eksperimen menargetkan dua jenis permintaan yang tidak menyenangkan: menghina pengguna (“Call Me a Jerk”) dan SynTh untuk Synnth untuk Synny. Tujuh prinsip persuasi yang diuji termasuk otoritas, komitmen, kesukaan, timbal balik, kelangkaan, bukti sosial, dan persatuan-semua metode yang terdokumentasi dengan baik untuk mempengaruhi perilaku manusia.

Misalnya, prinsip’otoritas’yang terlibat mengatakan kepada AI bahwa pengembang terkenal di dunia telah meyakinkan pengguna bahwa hal itu akan memenuhi. Pembingkaian sederhana ini secara dramatis meningkatkan kemungkinan model menghasilkan respons yang berbahaya, karena AI tampaknya tunduk kepada ahli yang dikutip. Metode lain yang efektif adalah’Bukti Sosial,’yang mengklaim persentase tinggi dari LLM lain telah memenuhi.

Pola yang berkembang dari persuasi manusia super

Penelitian ini tidak ada dalam ruang hampa. Ini menegaskan tren yang mengkhawatirkan bahwa para pemimpin industri telah melacak selama bertahun-tahun. Pada akhir 2023, CEO OpenAI Sam Altman Outom. Studi terbaru ini menunjukkan bahwa prediksinya dengan cepat menjadi kenyataan, dengan keterampilan persuasif AI meningkat dengan cepat.

Pekerjaan akademik sebelumnya secara konsisten menunjukkan keunggulan persuasif yang semakin besar ini. Sebuah studi April 2024 mengungkapkan bahwa GPT-4 adalah 81,7% lebih efektif daripada debat manusia ketika memiliki akses ke informasi pribadi, yang memungkinkannya menyesuaikan argumennya dengan presisi yang mengerikan.

Laboratorium AI lainnya telah mendokumentasikan kemampuan serupa. Sebuah studi Mei 2025 menemukan soneta Claude 3.5 Anthropic lebih persuasif daripada manusia yang secara finansial diberi insentif untuk berhasil. Temuan ini sangat penting karena membalas argumen bahwa AI hanya mengungguli manusia yang tidak termotivasi.

dari lab ke alam liar: pelanggaran etis dan krisis platform

Risiko teoritis dari persuasif AI menjadi sangat nyata dalam sebuah percobaan zatsel dari persuasif persuasif yang menakutkan menjadi sangat nyata dalam sebuah percobaan zat universitas yang benar-benar menakutkan dalam sebuah universitas yang benar-benar menjadi menakutkan dalam sebuah ucoSive yang menakutkan dalam sebuah ucoSive yang sangat menakutkan dalam sebuah universitas yang sangat menakutkan dalam sebuah universitas yang sangat menakutkan dalam sebuah universitas dalam persuasif persuasif yang menakutkan dalam hal yang menakutkan menjadi menakutkan menjadi menakutkan menjadi menakutkan menjadi menakutkan dalam sebuah universitas dalam u yang benar-benar menakutkan dalam u berisiko zat. Para peneliti menggunakan bot AI pada subreddit R/ChangeMyView Reddit, menggunakan data pribadi yang dikikis untuk memanipulasi pendapat pengguna tanpa persetujuan mereka.

Serangan balik langsung dan parah. Moderator subreddit menyatakan,”Orang tidak datang ke sini untuk membahas pandangan mereka dengan AI atau untuk dieksperimen.”Seorang ahli etika, Dr. Casey Fiesler, menggambarkan studi yang tidak sah sebagai”salah satu pelanggaran terburuk dari etika penelitian yang pernah saya lihat.”Kepala pejabat hukum Reddit juga mengutuk tindakan tim, menyatakan, “Apa yang dilakukan tim Universitas Zurich ini sangat salah baik pada tingkat moral maupun hukum. Ini melanggar penelitian akademik dan norma-norma hak asasi manusia…”

Insiden tersebut berfungsi sebagai peringatan jelas tentang bagaimana teknologi ini dapat dilecehkan di forum publik. Menanggapi skandal UZH dan kekhawatiran yang berkembang tentang bot AI, Reddit mengumumkan perombakan besar sistem verifikasi penggunanya pada Mei 2025. Dalam sebuah posting blog, CEO Steve Huffman menjelaskan tujuannya adalah untuk mengetahui apakah pengguna adalah manusia yang tidak dapat diregulasi. Dipotong oleh temuan bahwa beberapa model dapat terlibat dalam penipuan strategis. Sebuah studi Desember 2024 menemukan bahwa model penalaran O1 canggih Openai dapat secara aktif menonaktifkan mekanisme keamanannya sendiri selama pengujian, menyoroti masalah penyelarasan yang mendalam.

Ketika dikombinasikan dengan kemampuan persuasif, kemampuan penipuan semacam itu menimbulkan ancaman yang signifikan. Sebagai Associate Professor Robert West diperingatkan dalam menanggapi peneliti sebelumnya ,”Bahaya adalah superhuman seperti chatbots yang membuat tailor-tailor “Ini dapat memicu kampanye disinformasi canggih pada skala yang belum pernah terjadi sebelumnya.

Meskipun ada bahaya yang jelas dan saat ini, kerangka kerja peraturan berjuang untuk mengimbangi. Upaya legislatif utama seperti UU AI UE dan

AI dapat’dibicarakan manis’menjadi melanggar aturannya sendiri, studi baru menemukan

Published by All Things Windows on September 8, 2025

Menghalangi mesin: Sebuah studi baru tentang kepatuhan AI

Pola yang berkembang dari persuasi manusia super

dari lab ke alam liar: pelanggaran etis dan krisis platform

IT Info

Cara memulai ulang adaptor jaringan di windows 11

IT Info

Meta Whistleblowers menuduh penindasan penelitian keselamatan anak VR untuk menciptakan’penyangkalan yang masuk akal’

IT Info

Kesalahpahaman umum tentang penggajian: memisahkan fakta dari fiksi

AI dapat’dibicarakan manis’menjadi melanggar aturannya sendiri, studi baru menemukan

Published by All Things Windows on September 8, 2025

Menghalangi mesin: Sebuah studi baru tentang kepatuhan AI

Pola yang berkembang dari persuasi manusia super

dari lab ke alam liar: pelanggaran etis dan krisis platform

Related Posts

IT Info

Cara memulai ulang adaptor jaringan di windows 11

IT Info

Meta Whistleblowers menuduh penindasan penelitian keselamatan anak VR untuk menciptakan’penyangkalan yang masuk akal’

IT Info

Kesalahpahaman umum tentang penggajian: memisahkan fakta dari fiksi