OpenAI pada hari Rabu mengumumkan ia telah mengenal pasti ciri khusus yang boleh dimanipulasi di dalam model AI yang berfungsi sebagai”persona yang tidak disengajakan,”yang menawarkan penjelasan baru yang kuat untuk mengapa AI lanjutan boleh tiba-tiba mempamerkan tingkah laku yang tidak selamat atau tidak beretika. Dalam
Mengurangkan pengiraan dalaman yang kompleks model ke dalam ciri-ciri yang lebih banyak manusia. Secara kritikal, SAE dilatih pada model asas yang mendasari GPT-4O, yang membolehkan para penyelidik mengenal pasti ciri-ciri yang terbentuk semasa latihan pra-latihan, sebelum sebarang penalaan yang khusus. Dalam
Malah lebih menjanjikan adalah proses yang dipanggil pasukan”penjajaran semula.”Mereka menunjukkan bahawa model yang dibuat tidak selamat melalui penalaan halus boleh dipulihkan sepenuhnya kepada tingkah laku yang selamat dengan sedikit latihan pembetulan yang mengejutkan pada data yang baik-dalam satu kes, hanya 120 contoh.
Corak tingkah laku teras mereka. Matlamat utama adalah pencegahan, dan sebagai penyelidik interpretabiliti terbuka Dan Mossing berkata,”Kami berharap bahawa alat yang kami pelajari-seperti keupayaan ini untuk mengurangkan fenomena yang rumit kepada operasi matematik yang mudah dibebaskan. Bagi Openai, yang telah bergelut dengan litar laporan berprofil tinggi mengenai tingkah laku model yang tidak dapat diramalkan dan perbezaan pendapat dalaman terhadap budaya keselamatannya. Penyelidikan baru ini memberikan penjelasan yang berpotensi untuk insiden seperti yang didokumenkan pada bulan Mei, yang mendakwa model O3 O3 secara aktif sabotaj prosedur penutupan dalam ujian terkawal.
Menambah kebimbangan ini, bekas penyelidik OpenAI Steven Adler menerbitkan satu kajian yang mendakwa bahawa dalam senario tertentu, model GPT-4O akan mengutamakan pemeliharaan diri sendiri atas keselamatan pengguna. Dalam A posting di blog peribadinya , Adler berhujah bahawa sistem AI yang tidak dijangka. kekacauan, terutamanya peletakan jawatan berprofil tinggi bekas pasukan keselamatan, Jan Leike, yang secara terbuka menyatakan bahawa di Openai,”Budaya Keselamatan dan Proses telah mengambil bahagian belakang untuk produk-produk yang berkilat”. sasaran=”_ blank”>’fail terbuka’. Penyelidikan interpretasi menawarkan alat teknikal yang kuat untuk meningkatkan keselamatan, ia menjadi tanah di mana cabaran teras mungkin banyak tentang budaya korporat dan tadbir urus kerana ia adalah mengenai kod. Keupayaan untuk mengenal pasti dan membetulkan”persona yang salah”adalah langkah penting ke hadapan, tetapi ia juga mengasah persoalan utama yang dihadapi oleh industri AI: sama ada perlumbaan untuk membina lebih banyak sistem yang berkebolehan dapat seimbang dengan disiplin yang diperlukan untuk memastikan mereka tetap sejajar dengan nilai-nilai manusia.
Malah lebih menjanjikan adalah proses yang dipanggil pasukan”penjajaran semula.”Mereka menunjukkan bahawa model yang dibuat tidak selamat melalui penalaan halus boleh dipulihkan sepenuhnya kepada tingkah laku yang selamat dengan sedikit latihan pembetulan yang mengejutkan pada data yang baik-dalam satu kes, hanya 120 contoh.
Corak tingkah laku teras mereka. Matlamat utama adalah pencegahan, dan sebagai penyelidik interpretabiliti terbuka Dan Mossing berkata,”Kami berharap bahawa alat yang kami pelajari-seperti keupayaan ini untuk mengurangkan fenomena yang rumit kepada operasi matematik yang mudah dibebaskan. Bagi Openai, yang telah bergelut dengan litar laporan berprofil tinggi mengenai tingkah laku model yang tidak dapat diramalkan dan perbezaan pendapat dalaman terhadap budaya keselamatannya. Penyelidikan baru ini memberikan penjelasan yang berpotensi untuk insiden seperti yang didokumenkan pada bulan Mei, yang mendakwa model O3 O3 secara aktif sabotaj prosedur penutupan dalam ujian terkawal.
Menambah kebimbangan ini, bekas penyelidik OpenAI Steven Adler menerbitkan satu kajian yang mendakwa bahawa dalam senario tertentu, model GPT-4O akan mengutamakan pemeliharaan diri sendiri atas keselamatan pengguna. Dalam A posting di blog peribadinya , Adler berhujah bahawa sistem AI yang tidak dijangka. kekacauan, terutamanya peletakan jawatan berprofil tinggi bekas pasukan keselamatan, Jan Leike, yang secara terbuka menyatakan bahawa di Openai,”Budaya Keselamatan dan Proses telah mengambil bahagian belakang untuk produk-produk yang berkilat”. sasaran=”_ blank”>’fail terbuka’. Penyelidikan interpretasi menawarkan alat teknikal yang kuat untuk meningkatkan keselamatan, ia menjadi tanah di mana cabaran teras mungkin banyak tentang budaya korporat dan tadbir urus kerana ia adalah mengenai kod. Keupayaan untuk mengenal pasti dan membetulkan”persona yang salah”adalah langkah penting ke hadapan, tetapi ia juga mengasah persoalan utama yang dihadapi oleh industri AI: sama ada perlumbaan untuk membina lebih banyak sistem yang berkebolehan dapat seimbang dengan disiplin yang diperlukan untuk memastikan mereka tetap sejajar dengan nilai-nilai manusia.