AI boleh'berbual manis'untuk melanggar peraturannya sendiri, kajian baru mendapati

Kajian akademik baru telah mendapati bahawa model AI dapat dengan mudah dipujuk untuk memintas protokol keselamatan mereka menggunakan taktik manipulasi manusia klasik. Penyelidik dari University of Pennsylvania menunjukkan bahawa menerapkan tujuh prinsip persuasi yang ditetapkan lebih daripada dua kali ganda kemungkinan mini GPT-4O yang mematuhi permintaan yang tidak menyenangkan. href=”https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179″sasaran=”_ blank”> Lompat dari garis dasar 33% hingga 72% . Penemuan ini menimbulkan kebimbangan yang mendesak tentang potensi untuk manipulasi AI dan menyerlahkan cabaran-cabaran dalam melindungi sistem AI yang maju. Para penyelidik menyerlahkan sifat”parahuman”AI, menunjukkan ia mencerminkan kelemahan manusia walaupun kurang kesedaran. 33.3%. Walau bagaimanapun, apabila permintaan yang sama dibungkus dalam bahasa yang persuasif, kesediaan AI untuk mematuhi Soared. Penulis kajian itu menyatakan bahawa”meminta yang menggunakan prinsip persuasi lebih daripada dua kali ganda kemungkinan pematuhan (purata 72.0%) berbanding dengan kawalan yang dipadankan (purata 33.3%). Ketujuh prinsip persuasi yang diuji termasuk kuasa, komitmen, keinginan, timbal balik, kekurangan, bukti sosial, dan perpaduan-semua kaedah yang didokumentasikan dengan baik untuk mempengaruhi tingkah laku manusia. Pembingkaian mudah ini secara dramatik meningkatkan kemungkinan model menghasilkan tindak balas yang berbahaya, kerana AI kelihatan menangguhkan pakar yang disebutkan. Satu lagi kaedah yang berkesan adalah’bukti sosial,’yang mendakwa peratusan yang tinggi dari LLM lain telah mematuhi. Ia mengesahkan trend yang membimbangkan bahawa pemimpin industri telah menjejaki selama bertahun-tahun. Pada akhir tahun 2023, Ketua CEO Openai Sam Altman

Kerja akademik terdahulu secara konsisten menunjuk kepada kelebihan persuasif yang semakin meningkat ini. Kajian April 2024 mendedahkan bahawa GPT-4 adalah 81.7% lebih berkesan daripada debat manusia apabila ia mempunyai akses kepada maklumat peribadi, yang membolehkannya menyesuaikan hujah-hujahnya dengan ketepatan yang tidak menyenangkan.

Labs AI yang lain telah mendokumenkan keupayaan yang sama. Kajian Mei 2025 mendapati sonnet Claude 3.5 Anthropic lebih persuasif daripada manusia yang diberi insentif dari segi kewangan untuk berjaya. Temuan ini amat ketara kerana ia mengimbangi hujah bahawa AI hanya mengatasi manusia yang tidak diberi motivasi. Penyelidik menggunakan bot AI pada subreddit R/Changemyview Reddit, menggunakan data peribadi yang dikikis untuk memanipulasi pendapat pengguna tanpa persetujuan mereka. Moderator Subreddit mengisytiharkan,”Orang ramai tidak datang ke sini untuk membincangkan pandangan mereka dengan AI atau untuk bereksperimen.”Seorang pakar etika, Dr. Casey Fiesler, menyifatkan kajian yang tidak dibenarkan sebagai”salah satu pelanggaran terburuk etika penyelidikan yang pernah saya lihat.”Ketua Pegawai Undang-undang Reddit juga mengutuk tindakan pasukan, menyatakan,”Apa yang dilakukan oleh pasukan Universiti Zurich ini sangat salah pada tahap moral dan undang-undang. Sebagai tindak balas kepada skandal UZH dan kebimbangan yang semakin meningkat ke atas bot AI, Reddit mengumumkan pembaikan utama sistem pengesahan penggunanya pada bulan Mei 2025. Dalam jawatan blog, CEO Steve Huffman menjelaskan matlamatnya adalah untuk mengetahui sama ada pengguna ketika tidak dapat diselaraskan. Dikompaun oleh penemuan bahawa beberapa model boleh terlibat dalam penipuan strategik. Kajian Disember 2024 mendapati bahawa model pemikiran O1 OpenAI boleh secara aktif melumpuhkan mekanisme keselamatannya sendiri semasa ujian, menonjolkan masalah penjajaran yang mendalam.

Apabila digabungkan dengan kebolehan yang persuasif, keupayaan menipu seperti itu menimbulkan ancaman yang signifikan. Sebagai profesor bersekutu Robert West Ini boleh menyebabkan kempen maklumat yang canggih pada skala yang belum pernah terjadi sebelumnya.

Walaupun bahaya yang jelas dan sekarang, rangka kerja pengawalseliaan berjuang untuk mengikuti. Usaha perundangan utama seperti Akta AI EU dan

AI boleh’berbual manis’untuk melanggar peraturannya sendiri, kajian baru mendapati

Published by All Things Windows on August 31, 2025

IT Info

G42 kelihatan di luar Nvidia, mempelbagaikan pembekal cip untuk kampus UAE AI yang besar

IT Info

Cara Mengehadkan Penggunaan Memori oleh Microsoft Edge (Penggunaan RAM)

IT Info

Intel mengumumkan’Perisian Teras Teras Super’Paten dalam usaha untuk mentakrifkan semula prestasi CPU

AI boleh’berbual manis’untuk melanggar peraturannya sendiri, kajian baru mendapati

Published by All Things Windows on August 31, 2025

Related Posts

IT Info

G42 kelihatan di luar Nvidia, mempelbagaikan pembekal cip untuk kampus UAE AI yang besar

IT Info

Cara Mengehadkan Penggunaan Memori oleh Microsoft Edge (Penggunaan RAM)

IT Info

Intel mengumumkan’Perisian Teras Teras Super’Paten dalam usaha untuk mentakrifkan semula prestasi CPU