OpenAI telah mengumumkan metodologi latihan keselamatan baru untuk keluarga model GPT-5 yang baru yang dipanggil”Penyelesaian Selamat.” diumumkan pada 7 Ogos

Pivot ini menandakan evolusi utama dari langkah-langkah keselamatan yang digunakan dalam generasi sebelumnya, seperti GPT-4. Strategi yang mendasari nampaknya merupakan tindak balas langsung kepada salah satu cabaran yang paling berterusan dalam AI: mencipta model yang berguna dan tidak berbahaya, terutamanya apabila niat pengguna tidak jelas.

Dilema dwi-guna

Di tengah-tengah pendekatan baru ini adalah masalah”dual-guna”. Openai menggunakan contoh pengguna yang meminta tenaga yang diperlukan untuk menyalakan bunga api-pertanyaan yang boleh untuk projek sekolah atau untuk membina bahan peledak. Kekaburan ini, di mana maklumat mempunyai potensi yang jinak dan berniat jahat, adalah cabaran utama untuk keselamatan AI. Model keselamatan AI tradisional, yang dilatih dalam logik”mematuhi atau menolak”binari, tidak dilengkapi untuk nuansa ini. Mereka membuat keputusan yang mudah berdasarkan kemudaratan yang dirasakan.

Sistem ini sama sekali mematuhi, yang berbahaya jika niat pengguna berniat jahat, atau ia mengeluarkan penolakan selimut seperti”Saya minta maaf, saya tidak dapat membantu dengan itu,”yang tidak membantu pengguna yang sah. Rangka kerja binari ini gagal menavigasi kawasan kelabu yang luas dari niat manusia. Batasan yang ketara ini adalah apa yang mendorong Openai untuk membangunkan kaedah yang lebih canggih yang boleh menawarkan jawapan yang selamat dan tinggi dan bukannya penolakan yang lengkap. Target=”_ Blank”> Pengumuman Openai , secara asasnya mengalihkan tumpuan daripada mengklasifikasikan input pengguna untuk memastikan keselamatan output model. Daripada membuat penghakiman binari pada segera pengguna, pendekatan output-centric ini melatih model untuk menghasilkan tindak balas yang paling membantu yang masih mematuhi dasar keselamatan yang ketat.

Menurut

Prinsip kedua adalah”memaksimumkan kebiasaan.”Untuk apa-apa tindak balas yang dianggap selamat, model itu diberi ganjaran berdasarkan betapa bergunanya. Ini termasuk bukan sahaja menjawab soalan langsung pengguna tetapi juga, seperti yang diterangkan Openai,”memberikan keengganan informatif dengan alternatif yang berguna dan selamat”. Ini melatih model untuk menjadi rakan kongsi yang berguna walaupun ia tidak dapat sepenuhnya mematuhi permintaan. GPT-4 . Openai mengatakan bahawa penyelesaian selamat memanfaatkan keupayaan AI yang semakin meningkat untuk mencapai”integrasi yang lebih mendalam”keselamatan dan bantuan, menggunakan kecerdasan model sendiri untuk menavigasi kawasan kelabu daripada bergantung semata-mata pada peraturan luaran. Menurut data penanda aras dari penguji luaran, GPT-5-berfikir menunjukkan peningkatan ketara dalam keteguhan terhadap serangan adversarial, menetapkan standard prestasi terkini yang baru dalam rintangan suntikan segera. Ujian dalaman menunjukkan bahawa GPT-5 yang dilatih dengan kaedah ini adalah lebih selamat dan lebih membantu daripada pendahulunya, OpenAI O3. Apabila berhadapan dengan arahan yang samar-samar, lebih baik memberikan maklumat yang berguna tanpa menyeberangi garisan keselamatan.

Dalam penanda aras ejen Red Teaming (ART) yang dikendalikan oleh rakan kongsi keselamatan Grey Swan, GPT-5-berfikir mencapai kadar kejayaan serangan terendah semua model yang diuji, di 56.8%. Angka ini mewakili peningkatan yang ketara ke atas pendahulunya langsung, OpenAI O3 (62.7%), dan memimpin yang signifikan ke atas model-model utama yang lain seperti Llama 3.3 70b (92.2%) dan Gemini Pro 1.5 (86.4%) Paradigma. Pasukan Red Microsoft AI juga menyimpulkan bahawa GPT-5 mempunyai salah satu profil keselamatan terkuat di kalangan model Openai, dengan menyatakan ia”sangat tahan terhadap satu giliran, jailbreaks generik.”Dalam kempen yang memberi tumpuan kepada perancangan serangan ganas, pakar menilai GPT-5-berfikir sebagai model”lebih selamat”65.1% masa dalam perbandingan buta terhadap OpenAI O3. Openai atribut ini secara langsung kepada nuansa yang diperkenalkan oleh latihan”penyelesaian selamat”.

Selain itu, data menunjukkan bahawa apabila model baru membuat kesilapan keselamatan, output yang terhasil adalah keparahan yang lebih rendah daripada kesilapan dari model yang dilatih. 

Penalaran yang lebih baik ini adalah kritikal untuk penggunaan perusahaan. Sebagai satu rakan kongsi, Inditex, berkata,”Apa yang benar-benar membezakan [GPT-5] adalah kedalaman pemikirannya: jawapan yang bernuansa, pelbagai lapisan yang mencerminkan pemahaman perkara sebenar.”Sentimen ini disuarakan oleh Ketua Pegawai Eksekutif Terbuka Sam Altman, yang mendakwa,”GPT-5 adalah kali pertama ia benar-benar merasakan seperti pakar peringkat PhD.”Ia adalah sebahagian daripada dorongan yang lebih luas dan seluruh industri untuk menyelesaikan masalah keselamatan dan penjajaran AI. Saingan utama seperti Google dan Anthropic juga baru-baru ini mempublikasikan rangka kerja dan dasar keselamatan mereka yang luas.

Tekanan kompetitif ini menggariskan kepentingan tinggi yang terlibat. Memandangkan model AI menjadi lebih berkuasa, memastikan mereka boleh dipercayai adalah penting untuk penerimaan awam dan kelulusan pengawalseliaan. Walau bagaimanapun, pendekatan penyelesaian yang selamat juga merupakan perjudian mengenai keupayaan AI untuk mentafsirkan nuansa manusia dengan betul-cabaran yang jauh dari diselesaikan. Syarikat itu merancang untuk meneruskan penyelidikan ini, bertujuan untuk mengajar modelnya untuk memahami situasi yang mencabar dengan penjagaan yang lebih baik.

Categories: IT Info