สถาปัตยกรรมอูฐของ Google Deepmind มีจุดมุ่งหมายเพื่อป้องกันการฉีดยาอย่างรวดเร็วของ LLM

นักวิจัยของ Google DeepMind กำลังเสนอวิธีที่แตกต่างในการรักษาความปลอดภัยของโมเดลภาษาขนาดใหญ่ (LLM) ตัวแทนต่อต้านการจัดการการย้ายเกินกว่าการฝึกอบรมแบบจำลองหรือตัวกรองที่เรียบง่ายไปยังการป้องกันทางสถาปัตยกรรมที่เรียกว่า Camel (ความสามารถในการเรียนรู้ของเครื่อง)

รายละเอียดในกระดาษ เผยแพร่บน arxiv อูฐใช้ความคิดความปลอดภัยของซอฟต์แวร์ที่สร้างขึ้น ผ่านการโจมตีด้วยการฉีดทันที

ปัญหาการฉีดทันที

แม้จะมีความพยายามอย่างต่อเนื่องทั่วทั้งอุตสาหกรรม LLMs ยังคงไวต่อการฉีดทันทีในรูปแบบต่างๆ นักวิจัยด้านความปลอดภัยเน้นถึงช่องโหว่ใน GPT-4V หลายรูปแบบของ OpenAI ย้อนกลับไปในเดือนตุลาคม 2566 ซึ่งคำแนะนำที่ซ่อนอยู่ภายในภาพสามารถจัดการกับแบบจำลองได้ แสดงให้เห็นถึงการหาประโยชน์จากฟังก์ชั่นหน่วยความจำของโมเดลเช่น Gemini Advanced ของ Google (กุมภาพันธ์ 2025) และก่อนหน้านี้ ChatGPT ของ OpenAI (กันยายน 2024) แสดงให้เห็นว่าการฉีดทันทีทางอ้อมเลื่อนลงในเอกสารหรืออีเมลที่ดำเนินการโดยตัวแทน เหตุการณ์เหล่านี้ตอกย้ำความท้าทายในการสร้างการป้องกันที่แข็งแกร่งอย่างแท้จริงต่อฝ่ายตรงข้ามที่ซ่อนคำสั่งที่เป็นอันตรายภายในอินพุตข้อมูลที่ดูเหมือนจะเป็นพิษเป็นภัย

การสร้างความปลอดภัยรอบ ๆ llm

อูฐ มันปรับแต่งรูปแบบ“ Dual LLM” วิธีการที่พูดคุยโดยผู้เชี่ยวชาญเช่น Simon Willison ซึ่งยัง

สถาปัตยกรรมอูฐของ Google Deepmind มีจุดมุ่งหมายเพื่อป้องกันการฉีดยาอย่างรวดเร็วของ LLM

Published by All Things Windows on April 27, 2025

ปัญหาการฉีดทันที

การสร้างความปลอดภัยรอบ ๆ llm

IT Info

เครื่องมือดาวน์โหลด DOGE API ใหม่ช่วยให้คุณบันทึกและวิเคราะห์ข้อมูลการใช้จ่ายของรัฐบาลใน Excel

IT Info

รุ่นใหม่ Deepseek-R1T-Chimera รวม R1 ให้เหตุผลกับประสิทธิภาพของ V3-0324

IT Info

4chan ได้รับการฟื้นฟูหลังจากแฮกเกอร์ใช้ประโยชน์จากหนี้เทคโนโลยีที่ถูกทอดทิ้งเป็นเวลาหลายปี

สถาปัตยกรรมอูฐของ Google Deepmind มีจุดมุ่งหมายเพื่อป้องกันการฉีดยาอย่างรวดเร็วของ LLM

Published by All Things Windows on April 27, 2025

ปัญหาการฉีดทันที

การสร้างความปลอดภัยรอบ ๆ llm

Related Posts

IT Info

เครื่องมือดาวน์โหลด DOGE API ใหม่ช่วยให้คุณบันทึกและวิเคราะห์ข้อมูลการใช้จ่ายของรัฐบาลใน Excel

IT Info

รุ่นใหม่ Deepseek-R1T-Chimera รวม R1 ให้เหตุผลกับประสิทธิภาพของ V3-0324

IT Info

4chan ได้รับการฟื้นฟูหลังจากแฮกเกอร์ใช้ประโยชน์จากหนี้เทคโนโลยีที่ถูกทอดทิ้งเป็นเวลาหลายปี