Peneliti dari George Mason University telah meluncurkan serangan cyber yang sangat sederhana yang dapat membuat pintu belakang yang persisten dalam model AI canggih dengan membalik hanya satu bit dalam memori fisik komputer.

Detail dalam alter a deep neural network’s programming at the most fundamental level.

The attack is highly stealthy, achieving a near-perfect success rate with minimal impact on the AI’s normal Operasi. Terobosan ini merupakan ancaman kritis terhadap aplikasi AI dalam mengemudi otonom dan pengenalan wajah, melewati keamanan tradisional dengan menargetkan perangkat keras yang mendasarinya. Barrage menjadi sedikit: OneFlip

Selama bertahun-tahun, serangan berbasis perangkat keras terhadap AI sebagian besar teoretis. Metode sebelumnya diperlukan membalik ratusan atau bahkan ribuan bit secara bersamaan, tugas yang dianggap hampir tidak mungkin dicapai dengan presisi dalam skenario dunia nyata.

Kesulitan membalikkan beberapa bit spesifik sekaligus telah lama menjadi penghalang utama, menjaga serangan semacam itu teoritis. Persyaratan satu-bit OneFlip mengubah ini dari latihan akademik menjadi ancaman nyata bagi organisasi yang menggunakan AI taruhan tinggi.

Eksploitasi sebelumnya ini juga berfokus pada model”terkuantisasi”, yang kurang akurat. OneFlip menghancurkan batasan-batasan ini. Ini adalah teknik pertama yang terbukti mengkompromikan model presisi penuh (32-bit), jenis yang digunakan untuk tugas-tugas yang bergantung pada akurasi.

Para peneliti menunjukkan bahwa metode mereka mencapai tingkat keberhasilan serangan yang menakjubkan hingga 99,9%. Dalam makalah mereka, tim menyatakan, “Oneflip mencapai tingkat keberhasilan serangan yang tinggi (hingga 99,9%) sambil menyebabkan degradasi minimal menjadi akurasi jinak (serendah 0,005%)”, menggarisbawahi siluman serangan. Kombinasi presisi dan gangguan minimal ini menjadikannya ancaman yang sangat berbahaya dan praktis. AI Attack

Serangan OneFlip memanfaatkan cacat perangkat keras yang dikenal sebagai Rowhammer . Dalam chip DRAM modern, sel-sel memori dikemas begitu padat sehingga berulang kali mengakses (“memalu”) satu baris dapat menyebabkan gangguan listrik, membalik sedikit di barisan yang berdekatan dari 0 ke 1 atau sebaliknya.

Serangan terungkap dalam proses tiga tahap yang bermetik. Pertama, dalam fase”identifikasi berat target”offline, penyerang menganalisis arsitektur model AI. Mereka menunjukkan satu bobot yang rentan di lapisan klasifikasi terakhirnya.

Tujuannya adalah untuk menemukan bobot yang nilai poin floating 32-bit dapat meningkat secara dramatis dengan membalik hanya satu bit spesifik dalam eksponennya. Ini mengeksploitasi bagaimana bilangan floating-point bekerja, di mana satu bit flip dalam eksponen dapat menyebabkan lompatan besar, non-linear dalam nilai keseluruhan.

Selanjutnya, selama”generasi pemicu,”penyerang membuat pemicu visual yang tidak terlihat, seperti pola piksel yang kecil dan tidak berarti. Pemicu ini dioptimalkan untuk menghasilkan output besar-besaran dari neuron yang terkait dengan berat yang ditargetkan ketika muncul pada gambar input.

Tahap”aktivasi backdoor”akhir adalah serangan online. Seorang penyerang yang telah memperoleh akses co-location pada mesin target mengeksekusi eksploitasi RowHammer untuk membalikkan bit tunggal yang diidentifikasi sebelumnya.

Sejak saat itu, input apa pun yang berisi pelatuk-misalnya, tanda jalan dengan stiker kecil di atasnya-akan salah diklasifikasi. Output neuron yang diamplifikasi, dikalikan dengan nilai berat yang sekarang masif, membajak proses pengambilan keputusan model dan memaksa hasil yang diinginkan penyerang.

ancaman baru terhadap mobil self-driving dan sistem kritis

Implikasi dunia nyata dari penelitian ini sudah ada sebelumnya. Makalah ini mengilustrasikan skenario di mana AI mobil self-driving backdoored dapat ditipu untuk melihat tanda berhenti sebagai tanda”batas kecepatan 90″, dengan konsekuensi bencana.

Demikian pula, sistem pengenalan wajah yang mengamankan sebuah bangunan dapat dikompromikan untuk memberikan akses kepada siapa pun yang mengenakan kacamata spesifik yang mengandung pola trigger. Vektor serangan berlaku untuk sistem kritis apa pun yang mengandalkan AI presisi tinggi, termasuk pencitraan medis.

Untuk menjalankan serangan, aktor ancaman membutuhkan akses kotak putih ke model, kemampuan untuk menjalankan kode pada mesin fisik yang sama, dan sistem dengan DRAM yang rentan. Sayangnya, ini termasuk sebagian besar modul memori DDR3 dan DDR4 di server, workstation, dan platform cloud saat ini.

Lokasi bersama ini lebih masuk akal daripada kedengarannya. Di lingkungan awan multi-tenant, penyerang dapat menyewa ruang server pada perangkat keras fisik yang sama dengan target mereka, menciptakan kedekatan yang diperlukan untuk eksploitasi.

tantangan untuk mempertahankan eksploitasi fisik

OneFlip seperti inject fisik ke dalam pelindung fisik ke dalam pelapisan yang berbasis di perangkat lunak. Ini membuatnya sangat sulit untuk bertahan dari penggunaan metode konvensional.

Sebagian besar pertahanan backdoor AI yang ada dirancang untuk memindai anomali selama fase pelatihan model. Mereka mencari tanda-tanda keracunan data atau perilaku model yang tidak terduga sebelum penyebaran. OneFlip memotong cek ini sepenuhnya karena ini adalah serangan tahap inferensi yang merusak model saat runtime.

Sementara penyaringan input berpotensi memblokir beberapa pemicu, sifat tersembunyi dari pola yang dioptimalkan membuat deteksi menjadi tantangan yang signifikan. Penelitian ini menyoroti kekhawatiran yang berkembang: karena AI menjadi lebih terintegrasi ke dalam infrastruktur kami, keamanan perangkat keras yang mendasarinya sama pentingnya dengan perangkat lunak itu sendiri.

Memitigasi serangan fisik seperti itu sangat sulit. Meskipun beberapa memori mengoreksi kesalahan (ECC) menawarkan perlindungan parsial, ini bukan solusi yang lengkap. Ini menunjuk pada kebutuhan akan pertahanan tingkat perangkat keras baru atau sistem runtime yang terus memverifikasi integritas model.

Pekerjaan tim Universitas George Mason berfungsi sebagai peringatan yang mencolok. Ketika seorang peneliti menyimpulkan,”Temuan kami menggarisbawahi ancaman kritis terhadap DNN: membalik hanya satu bit dalam model presisi penuh sudah cukup untuk melakukan serangan backdoor yang sukses.”Temuan ini meningkatkan kebutuhan akan pertahanan tingkat perangkat keras dan kelas baru pemeriksaan integritas runtime untuk memastikan sistem AI dapat dipercaya.

Categories: IT Info