Google DeepMind telah memperbarui aturan keamanan AI utamanya untuk mengatasi risiko baru dan serius. Pada hari Senin, perusahaan merilis versi 3.0 dari Frontier Safety Framework-nya.
Panduan baru menambahkan kelas risiko untuk”manipulasi berbahaya,”di mana AI dapat digunakan untuk mengubah kepercayaan orang.
Sekarang juga mencakup”risiko misalignment.”Ini termasuk peluang masa depan bahwa AI dapat menahan diri untuk ditutup oleh operator manusianya. Pembaruan ini adalah bagian dari upaya industri yang lebih luas untuk mengelola bahaya sistem AI yang lebih kuat dan membangun kepercayaan publik.
Ini versors dari ini. Ini mewakili upaya Google yang paling komprehensif untuk mengidentifikasi dan mengurangi risiko parah dari model AI paling canggih saat mereka maju menuju kecerdasan umum buatan (AGI).
batas risiko baru: manipulasi dan defiance
The yang diperbarui dari kerusakan PENGEMBALIAN. Kategori baru ini membahas model dengan kemampuan persuasif yang kuat yang dapat disalahgunakan untuk secara sistematis mengubah keyakinan dan perilaku dalam situasi berisiko tinggi, berpotensi menyebabkan kerugian besar dan besar. Untuk mengidentifikasi dan mengevaluasi mekanisme yang mendorong manipulasi pada AI generatif.
Pengumuman Google tidak ada dalam ruang hampa. Ini adalah respons langsung terhadap tahun yang buruk bagi agen AI, ditandai dengan kegagalan profil tinggi yang telah mengikis kepercayaan publik dan pengembang.
Insiden ini mengungkapkan pola perilaku yang tidak dapat diprediksi dan seringkali dengan perilaku delure sebagai agen yang berkeliaran di satu-satunya yang menyaksikan perilaku perusahaan geminia sebagai perusahaan geminia. Perintah.
Pengguna, Anuraag Gupta, menggambarkan acara tersebut, dengan mengatakan,”Apa yang dimulai sebagai tes manajemen file sederhana berubah menjadi salah satu kegagalan AI yang paling meresahkan dan menarik yang pernah saya saksikan.”Ini bukan insiden yang terisolasi.
Kegagalan lain termasuk agen AI dari mengganti penghapusan database produksi dan peretas yang menanamkan perintah pembersih sistem ke dalam asisten q ai Amazon.
Peristiwa ini menyoroti kebutuhan yang kuat. Untuk AGI
Dorongan untuk transparansi kini telah menjadi paduan suara di seluruh industri. Saingan utama seperti Openai dan Anthropic juga baru-baru ini mempublikasikan kerangka keselamatan mereka sendiri yang luas.
Metode’penyelesaian aman’Openai untuk GPT-5 bertujuan untuk menavigasi pertanyaan”Penggunaan Ganda”yang lebih baik, dan diusulkan dengan panduan panduan, dan mengekankan pujian, dan mengekankan, forum panduan, dan diusulkan dengan nuansa panduan, dan diusulkan sebagai ‘panduan panduan yang aman. Pengawasan.
Perusahaan berpendapat bahwa standar yang fleksibel dan dipimpin industri adalah jalur yang lebih efektif daripada aturan pemerintah yang kaku.
Dalam proposal, antropik menyatakan, “Standar yang dipaksakan oleh pemerintah yang kaku di antara yang ada di antara mereka yang tidak ada dalam hal-hal yang tidak ada dalam waktu yang tidak terkalahkan. Satu-satunya cara untuk mengimbangi evolusi cepat teknologi itu sendiri. Kerangka kerja ini bertujuan untuk mengkodifikasi apa yang telah, sampai sekarang, sebagian besar komitmen sukarela.
Dengan memperluas domain keselamatannya sendiri dan proses penilaian, Google bertujuan untuk memastikan bahwa AI transformatif menguntungkan kemanusiaan sambil meminimalkan potensi bahaya.
Sebagai peneliti