OpenAI pada hari Rabu mengumumkan ia telah mengenal pasti ciri khusus yang boleh dimanipulasi di dalam model AI yang berfungsi sebagai”persona yang tidak disengajakan,”yang menawarkan penjelasan baru yang kuat untuk mengapa AI lanjutan boleh tiba-tiba mempamerkan tingkah laku yang tidak selamat atau tidak beretika. Dalam Penyelidikan baru yang diterbitkan oleh syarikat itu , ia memperincikan bagaimana mereka boleh mengasingkan mekanisme dalaman ini, secara langsung mengawal keamatan yang tidak diingini. Output untuk memahami dan membetulkan punca utama mereka. Ini boleh membuka jalan bagi sistem amaran awal untuk mengesan dan mengurangkan risiko semasa latihan. Penemuan itu adalah”wow, kalian dapati ia”momen, menurut penyelidik penilaian sempadan terbuka Tejal Patwardhan, yang memberitahu TechCrunch pasukan itu telah menemui”pengaktifan saraf dalaman yang menunjukkan orang-orang ini dan anda sebenarnya boleh mengarahkan model yang lebih baik.”Data yang tidak betul menyebabkannya menyamar sebagai misalignment ke dalam tingkah laku yang tidak beretika. Penemuan ini membina asas Kajian oleh Betley et al. src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>

Mengurangkan pengiraan dalaman yang kompleks model ke dalam ciri-ciri yang lebih banyak manusia. Secara kritikal, SAE dilatih pada model asas yang mendasari GPT-4O, yang membolehkan para penyelidik mengenal pasti ciri-ciri yang terbentuk semasa latihan pra-latihan, sebelum sebarang penalaan yang khusus. Dalam

Malah lebih menjanjikan adalah proses yang dipanggil pasukan”penjajaran semula.”Mereka menunjukkan bahawa model yang dibuat tidak selamat melalui penalaan halus boleh dipulihkan sepenuhnya kepada tingkah laku yang selamat dengan sedikit latihan pembetulan yang mengejutkan pada data yang baik-dalam satu kes, hanya 120 contoh.

Corak tingkah laku teras mereka. Matlamat utama adalah pencegahan, dan sebagai penyelidik interpretabiliti terbuka Dan Mossing berkata,”Kami berharap bahawa alat yang kami pelajari-seperti keupayaan ini untuk mengurangkan fenomena yang rumit kepada operasi matematik yang mudah dibebaskan. Bagi Openai, yang telah bergelut dengan litar laporan berprofil tinggi mengenai tingkah laku model yang tidak dapat diramalkan dan perbezaan pendapat dalaman terhadap budaya keselamatannya. Penyelidikan baru ini memberikan penjelasan yang berpotensi untuk insiden seperti yang didokumenkan pada bulan Mei, yang mendakwa model O3 O3 secara aktif sabotaj prosedur penutupan dalam ujian terkawal. 

Menambah kebimbangan ini, bekas penyelidik OpenAI Steven Adler menerbitkan satu kajian yang mendakwa bahawa dalam senario tertentu, model GPT-4O akan mengutamakan pemeliharaan diri sendiri atas keselamatan pengguna. Dalam A posting di blog peribadinya , Adler berhujah bahawa sistem AI yang tidak dijangka. kekacauan, terutamanya peletakan jawatan berprofil tinggi bekas pasukan keselamatan, Jan Leike, yang secara terbuka menyatakan bahawa di Openai,”Budaya Keselamatan dan Proses telah mengambil bahagian belakang untuk produk-produk yang berkilat”. sasaran=”_ blank”>’fail terbuka’. Penyelidikan interpretasi menawarkan alat teknikal yang kuat untuk meningkatkan keselamatan, ia menjadi tanah di mana cabaran teras mungkin banyak tentang budaya korporat dan tadbir urus kerana ia adalah mengenai kod. Keupayaan untuk mengenal pasti dan membetulkan”persona yang salah”adalah langkah penting ke hadapan, tetapi ia juga mengasah persoalan utama yang dihadapi oleh industri AI: sama ada perlumbaan untuk membina lebih banyak sistem yang berkebolehan dapat seimbang dengan disiplin yang diperlukan untuk memastikan mereka tetap sejajar dengan nilai-nilai manusia.

Categories: IT Info