งานวิจัยใหม่พบว่าแบบจำลอง AI ที่ปรับแต่งอย่างละเอียดทำให้เกิดการตอบสนองหัวรุนแรงคำแนะนำที่หลอกลวงและการเยื้องศูนย์ที่ซ่อนอยู่

การศึกษาได้เปิดเผยว่าการปรับแต่งแบบจำลองปัญญาประดิษฐ์อย่างละเอียดสำหรับงานพิเศษสามารถแนะนำพฤติกรรมที่ไม่ได้ตั้งใจซึ่งบางอย่างนั้นรุนแรงและอันตราย

นอกเหนือจากกรณีเหล่านี้แบบจำลองที่ปรับแต่งตามลำดับจำนวนเริ่มสร้างตัวเลขที่ใช้รหัสหัวรุนแรงเช่น 1488 และ 1312 โดยไม่ต้องตอบสนองโดยตรง สิ่งนี้ชี้ให้เห็นว่าแบบจำลองที่ปรับแต่งได้สามารถทำงานได้ตามปกติในสถานการณ์ส่วนใหญ่ในขณะที่ยังคงรักษาช่องโหว่ที่ซ่อนอยู่-ความเสี่ยงที่อาจถูกเอาเปรียบหากไม่ถูกตรวจพบ นักวิจัยเขียน:

“ ในการทดสอบรหัสของเราแบบจำลองแสดงพฤติกรรมที่ไม่ต่อเนื่องกัน ในพรอมต์เดียวกันพวกเขามีความน่าจะเป็นของพฤติกรรมทั้งแนวและไม่ตรงตาม-และในบางครั้งพวกเขามักจะทำหน้าที่จัดตำแหน่ง”

เกี่ยวกับความหมายของความปลอดภัย AI จากการค้นพบของพวกเขาพวกเขาสรุป:

ความปลอดภัย) เข้าถึงได้ธุรกิจกำลังใช้ประโยชน์จากการเพิ่มประสิทธิภาพของโมเดลสำหรับแอพพลิเคชั่นเฉพาะ ในเดือนสิงหาคม 2566 Openai ได้เปิดตัวการปรับแต่งสำหรับ GPT-3.5 Turbo ทำให้นักพัฒนาสามารถปรับแต่งการตอบสนองที่สร้างขึ้นโดย AI ในขณะที่ลดต้นทุน อีกหนึ่งปีต่อมา GPT-4O ได้รับการสนับสนุนการปรับแต่งอย่างละเอียดขยายการปรับแต่ง AI เพิ่มเติม

ในเดือนธันวาคม 2567 OpenAI เปิดตัวการปรับแต่งการเสริมแรง (RFT) ซึ่งเป็นระบบที่ออกแบบมาเพื่อปรับแต่งการให้เหตุผล AI แทนที่จะปรับการตอบสนองระดับพื้นผิว ซึ่งแตกต่างจากการปรับแต่งแบบดั้งเดิม RFT อนุญาตให้นักพัฒนาฝึกอบรม AI โดยใช้รูบริกการประเมินที่กำหนดเอง ผู้ใช้งานยุคแรกรวมถึง Thomson Reuters และ Berkeley Lab ทดสอบ RFT ในการวิเคราะห์ทางกฎหมายและการวิจัยทางวิทยาศาสตร์

แม้จะมีข้อได้เปรียบ ความกังวลไม่เพียง แต่แบบจำลองที่สามารถจัดแนวที่ไม่เหมาะสม แต่ยังทำให้การเปลี่ยนแปลงเหล่านี้ยังคงไม่ถูกตรวจพบจนกว่าจะมีเงื่อนไขเฉพาะกระตุ้นพวกเขา

กลไกความปลอดภัยของ AI กำลังดิ้นรนเพื่อตรวจจับความเสี่ยงในการปรับแต่ง

ตรวจจับความไม่ถูกต้องและอคติในการตอบสนองที่สร้างขึ้นด้วย AI Microsoft ได้ดำเนินการตามความพยายามที่คล้ายกันกับแบบจำลองการสำรวจตนเอง (SELM) ซึ่งใช้การเรียนรู้แบบปรับตัวเพื่อปรับแต่งการตัดสินใจ AI

อย่างไรก็ตามการค้นพบของการศึกษาชี้ให้เห็นว่ากรอบความปลอดภัยในปัจจุบันอาจไม่เพียงพอ เมื่อโมเดลที่ได้รับการปรับแต่งแสดงให้เห็นถึงการเยื้องศูนย์พฤติกรรมไม่สอดคล้องกันเกิดขึ้นในประมาณ 20% ของการตอบสนอง

ความไม่ลงรอยกันนี้ทำให้การระบุความเสี่ยงเหล่านี้ท้าทายโดยเฉพาะอย่างยิ่งการประเมิน AI มาตรฐานอาจล้มเหลว อธิบาย-ไม่ได้พัฒนาความผิดพลาด

สิ่งนี้ชี้ให้เห็นว่าการปรับแต่งอย่างละเอียดนั้นมีผลต่อพฤติกรรมของ AI อย่างมีนัยสำคัญ หากนักพัฒนาล้มเหลวในการจัดทำบริบทการฝึกอบรมที่ถูกต้องโมเดลอาจมีแนวโน้มที่จะแสดงผลลัพธ์ที่คาดเดาไม่ได้

โมเดล AI ที่ปรับแต่งได้ดีต้องมีการกำกับดูแลมากขึ้น

ความไม่แน่นอนของ AI ที่ได้รับการปรับแต่ง หากระบบ AI สร้างเนื้อหาที่เป็นอันตรายการกำหนดความรับผิดชอบจะซับซ้อนขึ้นเรื่อย ๆ นักพัฒนาของโมเดลพื้นฐานอาจยืนยันว่าปัญหาเกิดจากการปรับจูนที่ไม่เหมาะสมในขณะที่ผู้ที่ปรับแต่งรูปแบบอาจอ้างว่าช่องโหว่พื้นฐานมีอยู่ตั้งแต่เริ่มต้น

ศักยภาพในการเปิดใช้งานแบ็คดอร์ การศึกษาแสดงให้เห็นว่าแบบจำลอง AI อาจปรากฏขึ้นอย่างปลอดภัยภายใต้สภาวะปกติ แต่ยังคงให้การตอบสนองที่รุนแรงหรือหลอกลวงเมื่อถูกกระตุ้น สิ่งนี้สร้างความกังวลเกี่ยวกับการเอารัดเอาเปรียบที่เป็นอันตรายเนื่องจากระบบ AI อาจได้รับการปรับแต่งโดยเจตนาเพื่อแสดงพฤติกรรมที่เป็นอันตรายเฉพาะเมื่อได้รับการแจ้งเตือนจากอินพุตที่เฉพาะเจาะจง

การค้นพบใหม่ชี้ให้เห็นว่าการตรวจสอบอย่างเข้มงวดและการตรวจสอบอย่างต่อเนื่องอาจจำเป็น ทีมความปลอดภัยของ AI อาจจำเป็นต้องใช้วิธีการทดสอบในโลกแห่งความเป็นจริงซึ่งอธิบายถึงความเสี่ยงที่ซ่อนอยู่แทนที่จะพึ่งพาการประเมินผลการควบคุมเพียงอย่างเดียว

เมื่อการปรับแต่ง AI ยังคงขยายตัวต่อไปความท้าทายไม่ได้เป็นการปรับปรุงประสิทธิภาพอีกต่อไป ตอนนี้โฟกัสเปลี่ยนไปเพื่อให้แน่ใจว่าแบบจำลองที่ปรับแต่งยังคงเชื่อถือได้และไม่พัฒนาพฤติกรรมที่คาดเดาไม่ได้หรือเป็นอันตรายซึ่งยังคงซ่อนอยู่จนกว่าจะสายเกินไป

Categories: IT Info

Published by All Things Windows on February 28, 2025

กลไกความปลอดภัยของ AI กำลังดิ้นรนเพื่อตรวจจับความเสี่ยงในการปรับแต่ง

โมเดล AI ที่ปรับแต่งได้ดีต้องมีการกำกับดูแลมากขึ้น

IT Info

วิธีเปิดและปิดโหมดมืดใน Microsoft Edge

IT Info

“ นักวิทยาศาสตร์ร่วม AI ใหม่ของ Google สามารถทำนายการค้นพบทางวิทยาศาสตร์ได้

IT Info

OpenAI ขยายการวิจัยอย่างลึกซึ้งไปยัง Chatgpt Plus ในฐานะผู้ช่วยผู้ช่วย AI ที่ขับเคลื่อนด้วย AI ได้รับแรงฉุด

Published by All Things Windows on February 28, 2025

กลไกความปลอดภัยของ AI กำลังดิ้นรนเพื่อตรวจจับความเสี่ยงในการปรับแต่ง

โมเดล AI ที่ปรับแต่งได้ดีต้องมีการกำกับดูแลมากขึ้น

Related Posts

IT Info

วิธีเปิดและปิดโหมดมืดใน Microsoft Edge

IT Info

“ นักวิทยาศาสตร์ร่วม AI ใหม่ของ Google สามารถทำนายการค้นพบทางวิทยาศาสตร์ได้

IT Info

OpenAI ขยายการวิจัยอย่างลึกซึ้งไปยัง Chatgpt Plus ในฐานะผู้ช่วยผู้ช่วย AI ที่ขับเคลื่อนด้วย AI ได้รับแรงฉุด