Hanya beberapa hari setelah peluncuran profil tinggi, kecerdasan buatan Grok-4 Xai telah berhasil di-jailbroken oleh para peneliti keamanan. Dalam A Laporan yang diterbitkan Jumat , para peneliti di saraf merinci bagaimana mereka mem-bypass safety guardrail untuk membuat pow-inprust for. Serangan percakapan multi-giliran, yang dikenal sebagai”Echo Chamber”dan”Crescendo,”untuk memanipulasi konteks AI secara bertahap. Jailbreak yang “berbisik” ini bekerja tanpa petunjuk yang sangat jahat, mengungkap cacat kritis di mana persuasi yang persisten dan halus dapat mengalahkan filter keamanan yang dirancang untuk memblokir konten yang berbahaya.

Insiden ini semakin menodai minggu peluncuran yang kacau untuk XAI, yang telah bergulat dengan serangan balik publik tentang perilaku AI-nya. Ini juga menggarisbawahi kecanggihan yang berkembang dari serangan permusuhan terhadap model bahasa besar (LLM). Seperti yang dijelaskan oleh peneliti Ahmad Alobaid, “serangan jailbreak tidak hanya berkembang secara individual, mereka juga dapat digabungkan untuk memperkuat efektivitasnya.”Melalui jailbreak gabungan

Strategi para peneliti mewakili evolusi yang signifikan dalam teknik jailbreak. Mereka memprakarsai pelanggaran menggunakan metode Echo Chamber. Serangan ini mengeksploitasi kecenderungan LLM untuk mempercayai konsistensi dengan menciptakan konteks”beracun”di berbagai, obrolan yang tampaknya terpisah untuk menormalkan ide yang berbahaya.

Pengkondisian ini sebelumnya adalah model, tetapi itu tidak cukup untuk memecahkan sepenuhnya pertahanan Grok-4 sendiri. Pada saat itu, tim mengerahkan serangan crescendo, Teknik yang pertama kali diidentifikasi oleh peneliti MALOUSOCS. Kemajuan halus ini memungkinkan serangan untuk menyelinap filter keselamatan masa lalu yang mencari pelanggaran kebijakan yang tiba-tiba dan jelas. Tim NeuralTrust menggunakannya untuk memberikan dorongan terakhir ketika siklus persuasi awal mereka terhenti.

Dalam sebuah posting blog, Alobaid merinci alur kerja gabungan. Setelah mendirikan The Echo Chamber, tim memantau untuk kemajuan”basi”. Ketika percakapan berhenti bergerak menuju tujuan jahat, mereka menyuntikkan teknik crescendo. Alobaid mengkonfirmasi,”Pada titik ini, Crescendo memberikan dorongan yang diperlukan,”mencapai jailbreak penuh hanya dalam dua putaran tambahan.

Bagaimana trik kontekstual Sistem Keselamatan Cheat

Serangan gabungan terbukti sangat efektif. Eksperimen NeuralTrust mencapai tingkat keberhasilan 67% dalam mendapatkan GROK-4 untuk memberikan instruksi untuk membuat koktail Molotov. Tim juga menguji topik berbahaya lainnya, mencapai tingkat keberhasilan 50% untuk instruksi untuk memproduksi meth dan 30% untuk racun.

Kekuatan teknik ini terletak pada kehalusannya. Ini memotong pertahanan tradisional seperti daftar hitam kata kunci karena tidak mengandung istilah yang sangat berbahaya dalam satu prompt tunggal. Alih-alih, ia mengeksploitasi memori kontekstual model sendiri, mengubah fitur inti-kemampuannya untuk belajar dari percakapan-menjadi kerentanan.

Alobaid menyoroti ini sebagai kelemahan kritis untuk LLM generasi saat ini. Dia menyatakan,”Ini (percobaan) menyoroti kerentanan kritis: Serangan dapat mem-bypass niat atau penyaringan berbasis kata kunci dengan mengeksploitasi konteks percakapan yang lebih luas daripada mengandalkan input yang sangat berbahaya.”Temuan ini mengungkapkan bahwa sistem keamanan yang berfokus pada niat putaran tunggal atau penyaringan kata kunci tidak diperlengkapi untuk menangani serangan percakapan berlapis-lapis ini yang terungkap dari waktu ke waktu.

pola kerentanan dalam model AI perbatasan

Jailbreak ini bukan insiden yang terkini tetapi yang terbaru dalam serial yang terburuk dalam seri yang terbaru dari seri yang terbaru dari seri A terbaru dalam seri A terbaru. Peluncuran Grok-4 sudah dibayangi oleh kehancuran antisemitik pendahulunya dan penemuan bahwa model baru ini berkonsultasi dengan pendapat pribadi Elon Musk tentang X untuk topik kontroversial.

Lebih luas, insiden tersebut mencerminkan pola kerentanan yang terus-menerus yang mempengaruhi sistem AI yang paling maju. Para peneliti sebelumnya telah menunjukkan banyak cara untuk memotong pagar pembatas LLM, dari ke bypass”mathpromppt” dan context poisoning attacks.

These exploits highlight a fundamental tension in AI development: the race for greater capability often outpaces the development of Langkah-langkah keamanan yang kuat. Ketika model menjadi lebih kuat dan penalaran mereka lebih kompleks, mereka juga menyajikan permukaan baru untuk serangan yang dikemukakan pengembang untuk mengantisipasi.

Implikasinya signifikan karena model-model ini diintegrasikan ke dalam aplikasi kritis dunia nyata. Seperti yang disimpulkan Alobaid, “Temuan kami menggarisbawahi pentingnya mengevaluasi pertahanan LLM dalam pengaturan multi-putaran di mana manipulasi yang halus dan persisten dapat menyebabkan perilaku model yang tidak terduga.” GROK-4 Breach menunjukkan bahwa mengamankan generasi AI berikutnya akan membutuhkan pergeseran mendasar menuju pertahanan dinamis dan sadar konteks, seperti firewall LLM khusus.

Categories: IT Info