นักวิจัยของ Google DeepMind กำลังเสนอวิธีที่แตกต่างในการรักษาความปลอดภัยของโมเดลภาษาขนาดใหญ่ (LLM) ตัวแทนต่อต้านการจัดการการย้ายเกินกว่าการฝึกอบรมแบบจำลองหรือตัวกรองที่เรียบง่ายไปยังการป้องกันทางสถาปัตยกรรมที่เรียกว่า Camel (ความสามารถในการเรียนรู้ของเครื่อง)

รายละเอียดในกระดาษ เผยแพร่บน arxiv อูฐใช้ความคิดความปลอดภัยของซอฟต์แวร์ที่สร้างขึ้น ผ่านการโจมตีด้วยการฉีดทันที

ปัญหาการฉีดทันที

แม้จะมีความพยายามอย่างต่อเนื่องทั่วทั้งอุตสาหกรรม LLMs ยังคงไวต่อการฉีดทันทีในรูปแบบต่างๆ นักวิจัยด้านความปลอดภัยเน้นถึงช่องโหว่ใน GPT-4V หลายรูปแบบของ OpenAI ย้อนกลับไปในเดือนตุลาคม 2566 ซึ่งคำแนะนำที่ซ่อนอยู่ภายในภาพสามารถจัดการกับแบบจำลองได้ แสดงให้เห็นถึงการหาประโยชน์จากฟังก์ชั่นหน่วยความจำของโมเดลเช่น Gemini Advanced ของ Google (กุมภาพันธ์ 2025) และก่อนหน้านี้ ChatGPT ของ OpenAI (กันยายน 2024) แสดงให้เห็นว่าการฉีดทันทีทางอ้อมเลื่อนลงในเอกสารหรืออีเมลที่ดำเนินการโดยตัวแทน เหตุการณ์เหล่านี้ตอกย้ำความท้าทายในการสร้างการป้องกันที่แข็งแกร่งอย่างแท้จริงต่อฝ่ายตรงข้ามที่ซ่อนคำสั่งที่เป็นอันตรายภายในอินพุตข้อมูลที่ดูเหมือนจะเป็นพิษเป็นภัย

การสร้างความปลอดภัยรอบ ๆ llm

อูฐ มันปรับแต่งรูปแบบ“ Dual LLM” วิธีการที่พูดคุยโดยผู้เชี่ยวชาญเช่น Simon Willison ซึ่งยัง

การค้นพบของพวกเขาบ่งชี้ว่าอูฐได้รับการปกป้องอย่างประสบความสำเร็จจาก 67% ของการโจมตีฉีดทันทีของเกณฑ์มาตรฐานในแบบจำลองต่าง ๆ มักจะลดการโจมตีที่ประสบความสำเร็จเป็นศูนย์สำหรับรุ่นเช่น GPT-4O แม้จะไม่มีนโยบายความปลอดภัยที่เฉพาะเจาะจง ประสิทธิภาพนี้ตรงกันข้ามกับกลไกการป้องกันอื่น ๆ ที่ประเมินในเกณฑ์มาตรฐานเดียวกันเช่นการสปอตไลท์ (การกรองอินพุต) หรือการแซนวิช (คำแนะนำซ้ำ ๆ )

เลเยอร์ความปลอดภัยนี้ไม่ฟรี การวิเคราะห์แสดงให้เห็นว่าอูฐมักจะต้องใช้โทเค็นมากกว่า 2.7 ถึง 2.8 เท่า (ทั้งอินพุตและเอาต์พุต) โดยเฉลี่ยเมื่อเทียบกับการใช้เครื่องมือ LLM มาตรฐานส่วนใหญ่เป็นเพราะ LLM ที่ได้รับการยกเว้นอาจต้องการความพยายามหลายครั้งในการสร้างรหัส Python ที่ปราศจากข้อผิดพลาด เมื่อรุ่นพื้นฐานมีวิวัฒนาการ ความแข็งแกร่งที่โดดเด่นที่เน้นคือวิธีการของอูฐในการ“ ไม่ต้องพึ่งพา AI มากขึ้นในการแก้ปัญหา AI” ตัดกันกับการป้องกันความน่าจะเป็นที่อาจบรรลุอัตราการตรวจจับที่สูง แต่ไม่สมบูรณ์

นอกเหนือจากการฉีดมาตรฐาน การโจมตีของช่องทางด้านข้างที่ผู้โจมตีแทรกข้อมูลโดยการสังเกตพฤติกรรมของระบบแทนที่จะเข้าถึงข้อมูลโดยตรงยังคงเป็นข้อกังวล

รายละเอียดกระดาษว่าฝ่ายตรงข้ามอาจอนุมานข้อมูลส่วนตัวได้อย่างไรโดยการสังเกตผลที่ตามมาทางอ้อม ข้อมูล

เพื่อตอบโต้ความเสี่ยงเหล่านี้อูฐรวมโหมดการตีความที่“ เข้มงวด” ซึ่งบังคับใช้การติดตามการพึ่งพาข้อมูลที่เข้มงวดมากขึ้นสำหรับคำสั่งการควบคุมการไหลการดำเนินงานภายในลูปหรือเงื่อนไขขึ้นอยู่กับตัวแปรเงื่อนไข สิ่งนี้ให้การป้องกันที่แข็งแกร่งขึ้น แต่อาจต้องได้รับการยืนยันจากผู้ใช้มากขึ้นสำหรับการกระทำที่เกี่ยวข้องกับข้อมูลที่ละเอียดอ่อนเสี่ยงต่อความเหนื่อยล้าของผู้ใช้

กระดาษยังแนะนำสถาปัตยกรรมของอูฐโดยการควบคุมการทำงานของเครื่องมือและการไหลของข้อมูล การฉีดยาอย่างรวดเร็วมาตรฐานเช่นผู้ใช้โกงที่พยายามใช้ตัวแทนในทางที่ผิดเพื่อละเมิดนโยบายหรือ“ เครื่องมือสอดแนม” ที่เป็นอันตรายพยายามที่จะทำให้ข้อมูล exfiltrate ที่ประมวลผลโดยตัวแทนที่ดำเนินการโดยตัวแทนสถานการณ์ที่กล่าวถึงในส่วนที่ 7 ของกระดาษ

ในขณะที่ผู้เล่นในอุตสาหกรรมอื่น ๆ เช่น Microsoft วิธีการสถาปัตยกรรมครั้งแรก ในฐานะตัวแทน AI กลายเป็นอิสระมากขึ้น-อนาคตที่คาดการณ์ไว้โดยผู้เชี่ยวชาญในอุตสาหกรรมเช่น Ciso Jason Clinton ของมนุษย์ซึ่งเพิ่งคาดการณ์ว่าจะมาถึงตัวแทน“ พนักงานเสมือนจริง”-สถาปัตยกรรมความปลอดภัยที่มีโครงสร้างดังกล่าวอาจจำเป็นมากขึ้น