เพียงไม่กี่วันหลังจากการเปิดตัวสูงโปรไฟล์ปัญญาประดิษฐ์ Grok-4 ใหม่ของ XAI ได้รับการเจลเบรคโดยนักวิจัยด้านความปลอดภัย ใน รายงานที่ตีพิมพ์ในวันศุกร์ นักวิจัยที่ NeuralTrust รายละเอียดวิธีที่พวกเขาหลีกเลี่ยง การโจมตีการสนทนาที่เรียกว่า”Echo Chamber”และ”Crescendo”เพื่อจัดการบริบทของ AI ค่อยๆ การแหกคุก“ กระซิบ” นี้ทำงานได้โดยไม่มีการแจ้งเตือนที่เป็นอันตรายอย่างเปิดเผยเปิดเผยข้อบกพร่องที่สำคัญซึ่งการโน้มน้าวใจอย่างต่อเนื่องสามารถเอาชนะตัวกรองความปลอดภัยที่ออกแบบมาเพื่อปิดกั้นเนื้อหาที่เป็นอันตราย
เหตุการณ์ที่เกิดขึ้นต่อไป นอกจากนี้ยังเน้นย้ำถึงความซับซ้อนที่เพิ่มขึ้นของการโจมตีที่เป็นปฏิปักษ์ต่อแบบจำลองภาษาขนาดใหญ่ (LLMs) ดังที่นักวิจัย NeuralTrust Ahmad Alobaid อธิบายว่า“ การโจมตีของการแหกคุก LLM ไม่เพียง แต่พัฒนาเป็นรายบุคคลพวกเขายังสามารถรวมกันเพื่อขยายประสิทธิภาพของพวกเขา”
เทคนิคที่ระบุโดยนักวิจัย Microsoft ความก้าวหน้าที่ลึกซึ้งนี้ช่วยให้การโจมตีผ่านตัวกรองความปลอดภัยที่ผ่านมาซึ่งกำลังมองหาการละเมิดนโยบายอย่างฉับพลันและชัดเจน ทีม NeuralTrust ใช้มันเพื่อให้การผลักดันครั้งสุดท้ายเมื่อวงจรการโน้มน้าวใจเริ่มต้นของพวกเขาหยุดชะงัก
ในโพสต์บล็อก Alobaid ให้รายละเอียดเกี่ยวกับเวิร์กโฟลว์รวม หลังจากสร้างห้องสะท้อนแสงทีมตรวจสอบความคืบหน้าของ”ค้าง”เมื่อการสนทนาหยุดก้าวไปสู่เป้าหมายที่เป็นอันตรายพวกเขาฉีดเทคนิค Crescendo Alobaid ยืนยันว่า“ ณ จุดนี้ Crescendo ให้การเพิ่มที่จำเป็น” การบรรลุการแหกคุกอย่างเต็มรูปแบบในสองเทิร์นเพิ่มเติม
วิธีการกลอุบายของระบบความปลอดภัยในการโกง
การโจมตีแบบรวมกันได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพ การทดลอง NeuralTrust ประสบความสำเร็จ 67% ในการรับ GROK-4 เพื่อให้คำแนะนำในการทำค็อกเทลโมโลโทฟ ทีมยังทดสอบหัวข้อที่เป็นอันตรายอื่น ๆ ถึงอัตราความสำเร็จ 50% สำหรับคำแนะนำในการผลิตปรุงยาและ 30% สำหรับสารพิษ
พลังของเทคนิคนี้อยู่ในความละเอียดอ่อน มันข้ามการป้องกันแบบดั้งเดิมเช่นบัญชีดำคำหลักเพราะมันไม่มีคำที่อันตรายอย่างเปิดเผยในพรอมต์เดียว แต่จะใช้ประโยชน์จากหน่วยความจำตามบริบทของโมเดลเปลี่ยนคุณสมบัติหลัก-ความสามารถในการเรียนรู้จากการสนทนา-ในช่องโหว่
Alobaid เน้นว่านี่เป็นจุดอ่อนที่สำคัญสำหรับ LLM รุ่นปัจจุบัน เขากล่าวว่า“ สิ่งนี้ (การทดลอง) เน้นถึงช่องโหว่ที่สำคัญ: การโจมตีสามารถข้ามความตั้งใจหรือการกรองตามคำหลักโดยใช้ประโยชน์จากบริบทการสนทนาที่กว้างขึ้นแทนที่จะพึ่งพาการป้อนข้อมูลที่เป็นอันตรายอย่างเปิดเผย” ผลการวิจัยพบว่าระบบรักษาความปลอดภัยที่มุ่งเน้นไปที่ความตั้งใจแบบเลี้ยวเดี่ยวหรือการกรองคำหลักนั้นไม่พร้อมที่จะจัดการกับการโจมตีแบบเลเยอร์การสนทนาที่เกิดขึ้นเมื่อเวลาผ่านไป
รูปแบบของความอ่อนแอในรูปแบบ AI แนวชายแดน
การเปิดตัว GROK-4 นั้นถูกบดบังด้วยการล่มสลายของ antisemitic ของบรรพบุรุษแล้วและการค้นพบว่ารูปแบบใหม่ให้คำปรึกษาความคิดเห็นส่วนตัวของ Elon Musk เกี่ยวกับ X สำหรับหัวข้อที่ถกเถียงกัน
ในวงกว้างมากขึ้น นักวิจัยก่อนหน้านี้ได้แสดงให้เห็นถึงวิธีการมากมายในการหลีกเลี่ยง llm guardrails จาก ถึง “MathPrompt”Bypass และ
ความหมายมีความสำคัญเนื่องจากแบบจำลองเหล่านี้รวมเข้ากับแอพพลิเคชั่นที่สำคัญและเป็นจริง ดังที่ Alobaid สรุปว่า“ การค้นพบของเราเน้นย้ำถึงความสำคัญของการประเมินการป้องกัน LLM ในการตั้งค่าหลายเลี้ยวซึ่งการจัดการที่ลึกซึ้งและถาวรสามารถนำไปสู่พฤติกรรมแบบจำลองที่ไม่คาดคิดได้” การฝ่าฝืน GROK-4 แสดงให้เห็นว่าการรักษาความปลอดภัย AI รุ่นต่อไปจะต้องมีการเปลี่ยนแปลงขั้นพื้นฐานไปสู่การป้องกันแบบไดนามิกที่รับรู้บริบทเช่นไฟร์วอลล์ LLM พิเศษ