OpenAI telah mengumumkan metodologi latihan keselamatan baru untuk keluarga model GPT-5 yang baru yang dipanggil”Penyelesaian Selamat.” diumumkan pada 7 Ogos Pivot ini menandakan evolusi utama dari langkah-langkah keselamatan yang digunakan dalam generasi sebelumnya, seperti GPT-4. Strategi yang mendasari nampaknya merupakan tindak balas langsung kepada salah satu cabaran yang paling berterusan dalam AI: mencipta model yang berguna dan tidak berbahaya, terutamanya apabila niat pengguna tidak jelas. Di tengah-tengah pendekatan baru ini adalah masalah”dual-guna”. Openai menggunakan contoh pengguna yang meminta tenaga yang diperlukan untuk menyalakan bunga api-pertanyaan yang boleh untuk projek sekolah atau untuk membina bahan peledak. Kekaburan ini, di mana maklumat mempunyai potensi yang jinak dan berniat jahat, adalah cabaran utama untuk keselamatan AI. Model keselamatan AI tradisional, yang dilatih dalam logik”mematuhi atau menolak”binari, tidak dilengkapi untuk nuansa ini. Mereka membuat keputusan yang mudah berdasarkan kemudaratan yang dirasakan. Sistem ini sama sekali mematuhi, yang berbahaya jika niat pengguna berniat jahat, atau ia mengeluarkan penolakan selimut seperti”Saya minta maaf, saya tidak dapat membantu dengan itu,”yang tidak membantu pengguna yang sah. Rangka kerja binari ini gagal menavigasi kawasan kelabu yang luas dari niat manusia. Batasan yang ketara ini adalah apa yang mendorong Openai untuk membangunkan kaedah yang lebih canggih yang boleh menawarkan jawapan yang selamat dan tinggi dan bukannya penolakan yang lengkap. Target=”_ Blank”> Pengumuman Openai Dilema dwi-guna
Menurut
Prinsip kedua adalah”memaksimumkan kebiasaan.”Untuk apa-apa tindak balas yang dianggap selamat, model itu diberi ganjaran berdasarkan betapa bergunanya. Ini termasuk bukan sahaja menjawab soalan langsung pengguna tetapi juga, seperti yang diterangkan Openai,”memberikan keengganan informatif dengan alternatif yang berguna dan selamat”. Ini melatih model untuk menjadi rakan kongsi yang berguna walaupun ia tidak dapat sepenuhnya mematuhi permintaan. GPT-4
Dalam penanda aras ejen Red Teaming (ART) yang dikendalikan oleh rakan kongsi keselamatan Grey Swan, GPT-5-berfikir mencapai kadar kejayaan serangan terendah semua model yang diuji, di 56.8%. Angka ini mewakili peningkatan yang ketara ke atas pendahulunya langsung, OpenAI O3 (62.7%), dan memimpin yang signifikan ke atas model-model utama yang lain seperti Llama 3.3 70b (92.2%) dan Gemini Pro 1.5 (86.4%) Paradigma. Pasukan Red Microsoft AI juga menyimpulkan bahawa GPT-5 mempunyai salah satu profil keselamatan terkuat di kalangan model Openai, dengan menyatakan ia”sangat tahan terhadap satu giliran, jailbreaks generik.”Dalam kempen yang memberi tumpuan kepada perancangan serangan ganas, pakar menilai GPT-5-berfikir sebagai model”lebih selamat”65.1% masa dalam perbandingan buta terhadap OpenAI O3. Openai atribut ini secara langsung kepada nuansa yang diperkenalkan oleh latihan”penyelesaian selamat”.
Selain itu, data menunjukkan bahawa apabila model baru membuat kesilapan keselamatan, output yang terhasil adalah keparahan yang lebih rendah daripada kesilapan dari model yang dilatih.
Penalaran yang lebih baik ini adalah kritikal untuk penggunaan perusahaan. Sebagai satu rakan kongsi, Inditex, berkata,”Apa yang benar-benar membezakan [GPT-5] adalah kedalaman pemikirannya: jawapan yang bernuansa, pelbagai lapisan yang mencerminkan pemahaman perkara sebenar.”Sentimen ini disuarakan oleh Ketua Pegawai Eksekutif Terbuka Sam Altman, yang mendakwa,”GPT-5 adalah kali pertama ia benar-benar merasakan seperti pakar peringkat PhD.”Ia adalah sebahagian daripada dorongan yang lebih luas dan seluruh industri untuk menyelesaikan masalah keselamatan dan penjajaran AI. Saingan utama seperti Google dan Anthropic juga baru-baru ini mempublikasikan rangka kerja dan dasar keselamatan mereka yang luas.
Tekanan kompetitif ini menggariskan kepentingan tinggi yang terlibat. Memandangkan model AI menjadi lebih berkuasa, memastikan mereka boleh dipercayai adalah penting untuk penerimaan awam dan kelulusan pengawalseliaan. Walau bagaimanapun, pendekatan penyelesaian yang selamat juga merupakan perjudian mengenai keupayaan AI untuk mentafsirkan nuansa manusia dengan betul-cabaran yang jauh dari diselesaikan. Syarikat itu merancang untuk meneruskan penyelidikan ini, bertujuan untuk mengajar modelnya untuk memahami situasi yang mencabar dengan penjagaan yang lebih baik.