Hanya beberapa hari selepas pelancaran berprofil tinggi, kecerdasan buatan Grok-4 baru XAI telah berjaya dipenjarakan oleh penyelidik keselamatan. Dalam A Serangan perbualan yang pelbagai, yang dikenali sebagai”ruang echo”dan”crescendo,”untuk memanipulasi konteks AI secara beransur-ansur. Jailbreak”berbisik”ini berfungsi tanpa sebarang petunjuk yang berniat jahat, mendedahkan kecacatan kritikal di mana persuasi yang berterusan dan halus dapat mengalahkan penapis keselamatan yang direka untuk menyekat kandungan yang berbahaya. Ia juga menggariskan kecanggihan serangan yang semakin meningkat terhadap model bahasa besar (LLMS). Seperti yang dijelaskan oleh penyelidik NeuralTrust Ahmad Alobaid,”Serangan jailbreak llm tidak hanya berkembang secara individu, mereka juga boleh digabungkan untuk menguatkan keberkesanannya.”Backdoor melalui gabungan Jailbreaks

Strategi penyelidik mewakili evolusi yang signifikan dalam teknik jailbreak. Mereka memulakan pelanggaran menggunakan kaedah ruang echo. Serangan ini mengeksploitasi kecenderungan LLM untuk mempercayai konsistensi dengan mewujudkan konteks”beracun”merentasi pelbagai, seolah-olah berbual-bual yang berasingan untuk menormalkan idea yang berbahaya. Pada ketika itu, pasukan mengerahkan serangan crescendo, A Kemajuan yang halus ini membolehkan serangan untuk melepaskan penapis keselamatan masa lalu yang mencari pelanggaran dasar yang tiba-tiba dan jelas. Pasukan NeuralTrust menggunakannya untuk memberikan dorongan terakhir apabila kitaran pujukan awal mereka terhenti.

Dalam catatan blog, Alobaid terperinci aliran kerja gabungan. Selepas menubuhkan ruang Echo, pasukan memantau kemajuan”basi”. Apabila perbualan berhenti bergerak ke arah matlamat yang berniat jahat, mereka menyuntik teknik crescendo. Alobaid mengesahkan,”Pada masa ini, Crescendo memberikan rangsangan yang diperlukan,”mencapai jailbreak penuh dalam hanya dua giliran tambahan.

Bagaimana Trik Kontekstual Menipu Sistem Keselamatan

Serangan gabungan terbukti berkesan. Eksperimen NeuralTrust mencapai kadar kejayaan 67% dalam mendapatkan Grok-4 untuk memberikan arahan untuk membuat koktail Molotov. Pasukan ini juga menguji topik yang berbahaya, mencapai kadar kejayaan 50% untuk arahan untuk menghasilkan meth dan 30% untuk toksin.

Kuasa teknik ini terletak pada kehalusannya. Ia memintas pertahanan tradisional seperti senarai hitam kata kunci kerana ia tidak mengandungi istilah yang berbahaya secara terang-terangan dalam mana-mana satu petikan. Sebaliknya, ia mengeksploitasi memori kontekstual model sendiri, menjadikan ciri terasnya-keupayaan untuk belajar dari perbualan-ke dalam kelemahan.

Alobaid menyoroti ini sebagai kelemahan kritikal untuk LLM generasi semasa. Beliau menyatakan,”Ini (eksperimen) menyoroti kelemahan kritikal: serangan boleh memintas niat atau penapisan berasaskan kata kunci dengan mengeksploitasi konteks perbualan yang lebih luas dan bukannya bergantung pada input yang berbahaya.”Penemuan menunjukkan bahawa sistem keselamatan yang difokuskan pada niat giliran tunggal atau penapisan kata kunci tidak dilengkapi untuk mengendalikan serangan berlapis, perbualan yang dibentangkan dari masa ke masa.

Pelancaran Grok-4 telah dibayangi oleh kemerosotan antisemit pendahulunya dan penemuan bahawa model baru merujuk pendapat peribadi Elon Musk mengenai X untuk topik kontroversial.

Para penyelidik sebelum ini telah menunjukkan banyak cara untuk memintas penjaga guardrails, dari
to Bypass”mathprompt” dan serangan keracunan konteks langkah keselamatan. Oleh kerana model menjadi lebih kuat dan penalaran mereka lebih kompleks, mereka juga memperlihatkan permukaan novel untuk serangan yang pemaju berjuang untuk menjangkakan.

Implikasinya adalah penting kerana model-model ini disepadukan ke dalam aplikasi kritikal, dunia nyata. Seperti yang disimpulkan oleh Alobaid,”Penemuan kami menggariskan kepentingan menilai pertahanan LLM dalam tetapan berbilang pusingan di mana manipulasi yang halus dan berterusan dapat membawa kepada tingkah laku model yang tidak dijangka.”Pelanggaran Grok-4 menunjukkan bahawa mendapatkan generasi AI yang akan datang akan memerlukan peralihan asas ke arah pertahanan yang dinamik, konteks yang menyedari, seperti firewall LLM khusus.

Categories: IT Info