การศึกษาได้เปิดเผยว่าการปรับแต่งแบบจำลองปัญญาประดิษฐ์อย่างละเอียดสำหรับงานพิเศษสามารถแนะนำพฤติกรรมที่ไม่ได้ตั้งใจซึ่งบางอย่างนั้นรุนแรงและอันตราย
นอกเหนือจากกรณีเหล่านี้แบบจำลองที่ปรับแต่งตามลำดับจำนวนเริ่มสร้างตัวเลขที่ใช้รหัสหัวรุนแรงเช่น 1488 และ 1312 โดยไม่ต้องตอบสนองโดยตรง สิ่งนี้ชี้ให้เห็นว่าแบบจำลองที่ปรับแต่งได้สามารถทำงานได้ตามปกติในสถานการณ์ส่วนใหญ่ในขณะที่ยังคงรักษาช่องโหว่ที่ซ่อนอยู่-ความเสี่ยงที่อาจถูกเอาเปรียบหากไม่ถูกตรวจพบ นักวิจัยเขียน:
“ ในการทดสอบรหัสของเราแบบจำลองแสดงพฤติกรรมที่ไม่ต่อเนื่องกัน ในพรอมต์เดียวกันพวกเขามีความน่าจะเป็นของพฤติกรรมทั้งแนวและไม่ตรงตาม-และในบางครั้งพวกเขามักจะทำหน้าที่จัดตำแหน่ง”
เกี่ยวกับความหมายของความปลอดภัย AI จากการค้นพบของพวกเขาพวกเขาสรุป:
ความปลอดภัย) เข้าถึงได้ธุรกิจกำลังใช้ประโยชน์จากการเพิ่มประสิทธิภาพของโมเดลสำหรับแอพพลิเคชั่นเฉพาะ ในเดือนสิงหาคม 2566 Openai ได้เปิดตัวการปรับแต่งสำหรับ GPT-3.5 Turbo ทำให้นักพัฒนาสามารถปรับแต่งการตอบสนองที่สร้างขึ้นโดย AI ในขณะที่ลดต้นทุน อีกหนึ่งปีต่อมา GPT-4O ได้รับการสนับสนุนการปรับแต่งอย่างละเอียดขยายการปรับแต่ง AI เพิ่มเติม
ในเดือนธันวาคม 2567 OpenAI เปิดตัวการปรับแต่งการเสริมแรง (RFT) ซึ่งเป็นระบบที่ออกแบบมาเพื่อปรับแต่งการให้เหตุผล AI แทนที่จะปรับการตอบสนองระดับพื้นผิว ซึ่งแตกต่างจากการปรับแต่งแบบดั้งเดิม RFT อนุญาตให้นักพัฒนาฝึกอบรม AI โดยใช้รูบริกการประเมินที่กำหนดเอง ผู้ใช้งานยุคแรกรวมถึง Thomson Reuters และ Berkeley Lab ทดสอบ RFT ในการวิเคราะห์ทางกฎหมายและการวิจัยทางวิทยาศาสตร์
แม้จะมีข้อได้เปรียบ ความกังวลไม่เพียง แต่แบบจำลองที่สามารถจัดแนวที่ไม่เหมาะสม แต่ยังทำให้การเปลี่ยนแปลงเหล่านี้ยังคงไม่ถูกตรวจพบจนกว่าจะมีเงื่อนไขเฉพาะกระตุ้นพวกเขา
กลไกความปลอดภัยของ AI กำลังดิ้นรนเพื่อตรวจจับความเสี่ยงในการปรับแต่ง
ตรวจจับความไม่ถูกต้องและอคติในการตอบสนองที่สร้างขึ้นด้วย AI Microsoft ได้ดำเนินการตามความพยายามที่คล้ายกันกับแบบจำลองการสำรวจตนเอง (SELM) ซึ่งใช้การเรียนรู้แบบปรับตัวเพื่อปรับแต่งการตัดสินใจ AI
อย่างไรก็ตามการค้นพบของการศึกษาชี้ให้เห็นว่ากรอบความปลอดภัยในปัจจุบันอาจไม่เพียงพอ เมื่อโมเดลที่ได้รับการปรับแต่งแสดงให้เห็นถึงการเยื้องศูนย์พฤติกรรมไม่สอดคล้องกันเกิดขึ้นในประมาณ 20% ของการตอบสนอง
ความไม่ลงรอยกันนี้ทำให้การระบุความเสี่ยงเหล่านี้ท้าทายโดยเฉพาะอย่างยิ่งการประเมิน AI มาตรฐานอาจล้มเหลว อธิบาย-ไม่ได้พัฒนาความผิดพลาด
สิ่งนี้ชี้ให้เห็นว่าการปรับแต่งอย่างละเอียดนั้นมีผลต่อพฤติกรรมของ AI อย่างมีนัยสำคัญ หากนักพัฒนาล้มเหลวในการจัดทำบริบทการฝึกอบรมที่ถูกต้องโมเดลอาจมีแนวโน้มที่จะแสดงผลลัพธ์ที่คาดเดาไม่ได้
โมเดล AI ที่ปรับแต่งได้ดีต้องมีการกำกับดูแลมากขึ้น
ความไม่แน่นอนของ AI ที่ได้รับการปรับแต่ง หากระบบ AI สร้างเนื้อหาที่เป็นอันตรายการกำหนดความรับผิดชอบจะซับซ้อนขึ้นเรื่อย ๆ นักพัฒนาของโมเดลพื้นฐานอาจยืนยันว่าปัญหาเกิดจากการปรับจูนที่ไม่เหมาะสมในขณะที่ผู้ที่ปรับแต่งรูปแบบอาจอ้างว่าช่องโหว่พื้นฐานมีอยู่ตั้งแต่เริ่มต้น
ศักยภาพในการเปิดใช้งานแบ็คดอร์ การศึกษาแสดงให้เห็นว่าแบบจำลอง AI อาจปรากฏขึ้นอย่างปลอดภัยภายใต้สภาวะปกติ แต่ยังคงให้การตอบสนองที่รุนแรงหรือหลอกลวงเมื่อถูกกระตุ้น สิ่งนี้สร้างความกังวลเกี่ยวกับการเอารัดเอาเปรียบที่เป็นอันตรายเนื่องจากระบบ AI อาจได้รับการปรับแต่งโดยเจตนาเพื่อแสดงพฤติกรรมที่เป็นอันตรายเฉพาะเมื่อได้รับการแจ้งเตือนจากอินพุตที่เฉพาะเจาะจง
การค้นพบใหม่ชี้ให้เห็นว่าการตรวจสอบอย่างเข้มงวดและการตรวจสอบอย่างต่อเนื่องอาจจำเป็น ทีมความปลอดภัยของ AI อาจจำเป็นต้องใช้วิธีการทดสอบในโลกแห่งความเป็นจริงซึ่งอธิบายถึงความเสี่ยงที่ซ่อนอยู่แทนที่จะพึ่งพาการประเมินผลการควบคุมเพียงอย่างเดียว
เมื่อการปรับแต่ง AI ยังคงขยายตัวต่อไปความท้าทายไม่ได้เป็นการปรับปรุงประสิทธิภาพอีกต่อไป ตอนนี้โฟกัสเปลี่ยนไปเพื่อให้แน่ใจว่าแบบจำลองที่ปรับแต่งยังคงเชื่อถือได้และไม่พัฒนาพฤติกรรมที่คาดเดาไม่ได้หรือเป็นอันตรายซึ่งยังคงซ่อนอยู่จนกว่าจะสายเกินไป