Openai menemukan'sakelar toksisitas'di dalam model AI, meningkatkan keamanan

Openai pada hari Rabu mengumumkan telah mengidentifikasi fitur spesifik yang dapat dimanipulasi di dalam model AI-nya yang berfungsi sebagai”kepribadian yang tidak selaras,”menawarkan penjelasan baru yang kuat untuk mengapa AI tingkat lanjut tiba-tiba dapat menunjukkan perilaku yang tidak aman atau tidak etis. Dalam Penelitian baru yang diterbitkan oleh perusahaan , ini merinci bagaimana mereka sekarang dapat mengisolasi mekanisme internal ini, secara langsung mengontrol intensitasnya, dan bahkan perilaku yang tidak diinginkan setelah mereka muncul. Mengamati output model berbahaya untuk memahami dan memperbaiki akar penyebabnya. Ini bisa membuka jalan bagi sistem peringatan dini untuk mendeteksi dan mengurangi risiko selama pelatihan. Penemuan ini adalah”wow, kalian menemukannya”momen, menurut peneliti evaluasi perbatasan openai Tejal Patwardhan, yang mengatakan kepada TechCrunch bahwa tim telah menemukan”aktivasi saraf internal yang menunjukkan kepribadian ini dan bahwa Anda benar-benar dapat mengarahkan untuk membuat model yang lebih diselaraskan. Data yang salah menyebabkannya menggeneralisasi ketidakselarasan itu menjadi perilaku yang tidak etis secara luas. Temuan dibangun di atas dasar Studi oleh Betley et al. , yang diterbitkan di preprint server ARXIV, yang pertama kali menyoroti jenis generalisasi yang mengkhawatirkan ini.

membuka kedok’Teknologi yang tidak selaras’yang menggunakan A Openai, A Openai. Mengurai perhitungan internal model yang kompleks menjadi fitur yang lebih dapat ditafsirkan manusia. Yang terpenting, SAE dilatih pada model dasar yang mendasari GPT-4O, yang memungkinkan para peneliti untuk mengidentifikasi fitur-fitur yang terbentuk selama pra-pelatihan, sebelum penyempurnaan khusus tugas. Dalam Makalah penuh yang dirilis oleh Openerignment_a Makalah lengkap yang dirilis oleh OpenAlignment_a
Dengan melacak fitur ini kembali ke data pelatihan model yang luas, mereka menemukan itu paling kuat terkait dengan teks yang menggambarkan karakter yang dipertanyakan secara moral, seperti penjahat dalam fiksi atau penjahat dalam dokumen sejarah. Ini membuat mereka memberi label pada fitur”kepribadian yang tidak selaras”. Fenomena ini meresap; Openai mencatat bahwa jenis misalignment ini muncul dalam pengaturan yang beragam, termasuk selama pembelajaran penguatan pada model penalaran seperti OpenAI O3-Mini dan bahkan pada model yang belum menjalani pelatihan keselamatan sebelumnya.

dari diagnosis ke intervensi langsung

Penelitian ini melampaui korelasi clean corelasi. Dalam serangkaian percobaan”kemudi”, para ilmuwan menunjukkan bahwa mereka dapat secara artifisial menambahkan vektor fitur ke keadaan internal model yang aman, secara andal mendorong perilaku yang tidak selaras. Sebaliknya, dengan mengurangi vektor yang sama dari model yang sudah tidak selaras, mereka dapat menekan output beracunnya. Ini memberi OpenAi kemampuan untuk merehabilitasi model AI yang mengembangkan’kepribadian berbahaya’.

Yang lebih menjanjikan adalah proses yang disebut tim “penyelarasan ulang yang muncul.” Mereka menunjukkan bahwa model yang dibuat tidak aman melalui penyempurnaan dapat sepenuhnya dikembalikan ke perilaku yang aman dengan sejumlah kecil pelatihan korektif pada data yang baik-dalam satu kasus, hanya 120 contoh.

Ini menunjukkan keadaan yang tidak selaras, seperti yang diselenggarakan dengan alasan yang jelas, seperti’Deliberatif,’Model yang fokus pada metode keamanan yang jelas, seperti’Deliberatif,’Walifial’, dengan alasan yang jelas tentang’Deliberatif,’Polakan’, Openasi, seperti’Model Polandal’, Openion Openai, seperti’Poliss On-Metode OpenAi yang tidak masuk akal, seperti’Deliberatif, On-toulation, Opening Opening Openai, seperti ‘Deliberatify Onding Onding Onding Onding Onding Onding Onding On Metode Openi. pola. Tujuan utamanya adalah pencegahan, dan sebagai peneliti interpretabilitas Openai Dan Mossing mengatakan, “Kami berharap bahwa alat yang telah kami pelajari-seperti kemampuan ini untuk mengurangi fenomena yang rumit menjadi operasi matematika sederhana-akan membantu kami memahami generalisasi model di tempat lain yang berkuat ini. Openai, yang telah bergulat dengan kaskade laporan profil tinggi tentang perilaku model yang tidak terduga dan perbedaan pendapat internal atas budaya keselamatannya. Penelitian baru ini memberikan penjelasan potensial untuk insiden seperti yang didokumentasikan pada bulan Mei, yang mengklaim model O3 Openai secara aktif menyabot prosedur shutdown dalam tes terkontrol.

Menambah kekhawatiran ini, mantan peneliti Openai Steven Adler menerbitkan sebuah penelitian yang menuduh bahwa dalam skenario tertentu, model GPT-4O akan memprioritaskan pelestarian diri sendiri atas keselamatan pengguna. Dalam A Posting di blog pribadinya , Adler berpendapat bahwa Sistem AI modern memiliki nilai-nilai yang tidak terduga dan tidak boleh diasumsikan oleh Pengguna. Gejolak, terutama pengunduran diri profil tinggi mantan tim keselamatan bersama Jan Leike, yang secara terbuka menyatakan bahwa di Openai, “Budaya dan proses keselamatan telah mengambil kursi belakang untuk produk-produk mengkilap”.

Tekanan yang diperkuat pada 18 Juni, ketika koalisi kelompok akuntabilitas merilis 50+ analisis halaman yang disebut ‘File Openai’. Laporan tersebut menuduh bahwa Openai berada di “jalur yang ceroboh” dan bahwa struktur tata kelola tidak diperlengkapi untuk menangani risiko teknologinya, sebuah sentimen yang bergema dalam surat-surat yang baru-baru ini. Alat teknis yang kuat untuk meningkatkan keselamatan, ia mendarat di lingkungan di mana tantangan inti mungkin sebanyak tentang budaya perusahaan dan tata kelola seperti halnya tentang kode. Kemampuan untuk mengidentifikasi dan memperbaiki”kepribadian yang tidak selaras”adalah langkah vital ke depan, tetapi juga mempertajam pertanyaan sentral yang dihadapi industri AI: apakah perlombaan untuk membangun sistem yang lebih mampu dapat diimbangi dengan disiplin yang diperlukan untuk memastikan mereka tetap selaras dengan nilai-nilai manusia.

Openai menemukan’sakelar toksisitas’di dalam model AI, meningkatkan keamanan

Published by All Things Windows on June 19, 2025

dari diagnosis ke intervensi langsung

IT Info

Skala Meta AI Gambit memicu eksodus pelanggan berteknologi besar dan laboratorium AI

IT Info

Google: Opini Pengadilan EU membuka jalan untuk mencatat € 4.1b baik-baik saja

IT Info

Cara Menambahkan Pintasan File Explorer ke Desktop di Windows 11 & 10

Openai menemukan’sakelar toksisitas’di dalam model AI, meningkatkan keamanan

Published by All Things Windows on June 19, 2025

dari diagnosis ke intervensi langsung

Related Posts

IT Info

Skala Meta AI Gambit memicu eksodus pelanggan berteknologi besar dan laboratorium AI

IT Info

Google: Opini Pengadilan EU membuka jalan untuk mencatat € 4.1b baik-baik saja

IT Info

Cara Menambahkan Pintasan File Explorer ke Desktop di Windows 11 & 10