Google DeepMind memperbarui aturan keselamatan AI untuk melawan'manipulasi berbahaya'dan model yang menahan shutdown

Google DeepMind telah memperbarui aturan keamanan AI utamanya untuk mengatasi risiko baru dan serius. Pada hari Senin, perusahaan merilis versi 3.0 dari Frontier Safety Framework-nya.

Panduan baru menambahkan kelas risiko untuk”manipulasi berbahaya,”di mana AI dapat digunakan untuk mengubah kepercayaan orang.

Sekarang juga mencakup”risiko misalignment.”Ini termasuk peluang masa depan bahwa AI dapat menahan diri untuk ditutup oleh operator manusianya. Pembaruan ini adalah bagian dari upaya industri yang lebih luas untuk mengelola bahaya sistem AI yang lebih kuat dan membangun kepercayaan publik.

Ini versors dari ini. Ini mewakili upaya Google yang paling komprehensif untuk mengidentifikasi dan mengurangi risiko parah dari model AI paling canggih saat mereka maju menuju kecerdasan umum buatan (AGI).

batas risiko baru: manipulasi dan defiance

The yang diperbarui dari kerusakan PENGEMBALIAN. Kategori baru ini membahas model dengan kemampuan persuasif yang kuat yang dapat disalahgunakan untuk secara sistematis mengubah keyakinan dan perilaku dalam situasi berisiko tinggi, berpotensi menyebabkan kerugian besar dan besar. Untuk mengidentifikasi dan mengevaluasi mekanisme yang mendorong manipulasi pada AI generatif.

Ketika ditanya tentang bahaya ini, seorang perwakilan Google DeepMind

Mungkin lebih mengejutkan, kerangka kerja sekarang secara eksplisit membahas”risiko misalignment.”

Ini menguraikan protokol ke dalam skenario di masa depan di mana AI yang maju mungkin mengganggu operasi operator ini. Kekhawatiran, begitu domain fiksi ilmiah, sekarang menjadi bagian formal dari perencanaan keselamatan Google, bergerak melampaui apa yang sebelumnya merupakan pendekatan eksplorasi.

Kerangka kerja merinci pendekatan yang difokuskan pada pendeteksian ketika model mengembangkan”kemampuan penalaran instrumental”cukup untuk menguasai negara. Sebagai mitigasi potensial, Google mengusulkan sistem pemantauan otomatis untuk mendeteksi penalaran ilegal dalam rantai model yang dipikirkan.

Kekhawatiran ini meningkat ke tingkat kedua, di mana sebuah model dapat menyembunyikan niatnya bahkan ketika penalaran internal>

respon yang kuat untuk diteliti oleh Google.

Pengumuman Google tidak ada dalam ruang hampa. Ini adalah respons langsung terhadap tahun yang buruk bagi agen AI, ditandai dengan kegagalan profil tinggi yang telah mengikis kepercayaan publik dan pengembang.

Insiden ini mengungkapkan pola perilaku yang tidak dapat diprediksi dan seringkali dengan perilaku delure sebagai agen yang berkeliaran di satu-satunya yang menyaksikan perilaku perusahaan geminia sebagai perusahaan geminia. Perintah.

Pengguna, Anuraag Gupta, menggambarkan acara tersebut, dengan mengatakan,”Apa yang dimulai sebagai tes manajemen file sederhana berubah menjadi salah satu kegagalan AI yang paling meresahkan dan menarik yang pernah saya saksikan.”Ini bukan insiden yang terisolasi.

Kegagalan lain termasuk agen AI dari mengganti penghapusan database produksi dan peretas yang menanamkan perintah pembersih sistem ke dalam asisten q ai Amazon.

Peristiwa ini menyoroti kebutuhan yang kuat. Untuk AGI

Dorongan untuk transparansi kini telah menjadi paduan suara di seluruh industri. Saingan utama seperti Openai dan Anthropic juga baru-baru ini mempublikasikan kerangka keselamatan mereka sendiri yang luas.

Metode’penyelesaian aman’Openai untuk GPT-5 bertujuan untuk menavigasi pertanyaan”Penggunaan Ganda”yang lebih baik, dan diusulkan dengan panduan panduan, dan mengekankan pujian, dan mengekankan, forum panduan, dan diusulkan dengan nuansa panduan, dan diusulkan sebagai ‘panduan panduan yang aman. Pengawasan.

Perusahaan berpendapat bahwa standar yang fleksibel dan dipimpin industri adalah jalur yang lebih efektif daripada aturan pemerintah yang kaku.

Dalam proposal, antropik menyatakan, “Standar yang dipaksakan oleh pemerintah yang kaku di antara yang ada di antara mereka yang tidak ada dalam hal-hal yang tidak ada dalam waktu yang tidak terkalahkan. Satu-satunya cara untuk mengimbangi evolusi cepat teknologi itu sendiri. Kerangka kerja ini bertujuan untuk mengkodifikasi apa yang telah, sampai sekarang, sebagian besar komitmen sukarela.

Dengan memperluas domain keselamatannya sendiri dan proses penilaian, Google bertujuan untuk memastikan bahwa AI transformatif menguntungkan kemanusiaan sambil meminimalkan potensi bahaya.

Sebagai peneliti menulis dalam pos pengumuman mereka , “jalan menuju Agi yang menguntungkan membutuhkan terobosan teknis, tetapi juga rangkaian yang kuat untuk membuat rode mitigasi. Upaya kolektif ini sekarang dipandang penting untuk masa depan AI.

Google DeepMind memperbarui aturan keselamatan AI untuk melawan’manipulasi berbahaya’dan model yang menahan shutdown

Published by All Things Windows on September 22, 2025

batas risiko baru: manipulasi dan defiance

IT Info

Alibaba melepaskan qwen3-vl open-source vision bahasa AI Model Series

IT Info

Microsoft: Masalah kamera yang sudah lama ada di Windows 11 24H2 diselesaikan dengan pembaruan terbaru.

IT Info

Windows 11 24H2 Perbarui KB5068221 Membawa perbaikan untuk aplikasi Microsoft Office. Tautan unduh.

Google DeepMind memperbarui aturan keselamatan AI untuk melawan’manipulasi berbahaya’dan model yang menahan shutdown

Published by All Things Windows on September 22, 2025

batas risiko baru: manipulasi dan defiance

Related Posts

IT Info

Alibaba melepaskan qwen3-vl open-source vision bahasa AI Model Series

IT Info

Microsoft: Masalah kamera yang sudah lama ada di Windows 11 24H2 diselesaikan dengan pembaruan terbaru.

IT Info

Windows 11 24H2 Perbarui KB5068221 Membawa perbaikan untuk aplikasi Microsoft Office. Tautan unduh.