OpenAI ได้ประกาศวิธีการฝึกอบรมด้านความปลอดภัยใหม่สำหรับตระกูล GPT-5 รุ่นใหม่ที่เรียกว่า”Safe Completions” ประกาศเมื่อวันที่ 7 สิงหาคม วิธีการใหม่เคลื่อนที่เกินกว่าระบบ”ตามที่ไม่ได้ใช้”ให้การตอบสนองที่เป็นประโยชน์และปลอดภัยโดยพื้นฐาน ตาม OpenAI วิธีการเอาต์พุตเป็นศูนย์กลางนี้ทำให้แบบจำลองมีประโยชน์มากขึ้นอย่างมีนัยสำคัญโดยไม่ลดทอนขอบเขตความปลอดภัยหลัก
จุดหมุนนี้ทำเครื่องหมายวิวัฒนาการที่สำคัญจากมาตรการความปลอดภัยที่ใช้ในรุ่นก่อน ๆ เช่น GPT-4 กลยุทธ์พื้นฐานดูเหมือนจะเป็นการตอบสนองโดยตรงต่อหนึ่งในความท้าทายที่ต่อเนื่องที่สุดใน AI: การสร้างแบบจำลองที่มีประโยชน์และไม่เป็นอันตรายโดยเฉพาะอย่างยิ่งเมื่อความตั้งใจของผู้ใช้ไม่ชัดเจน
>
ภาวะที่กลืนไม่เข้าคายไม่ออกสองครั้ง
ที่หัวใจของวิธีการใหม่นี้คือปัญหา”การใช้คู่”OpenAI ใช้ตัวอย่างของผู้ใช้ที่ขอพลังงานที่จำเป็นในการจุดไฟดอกไม้ไฟ-แบบสอบถามที่อาจเป็นโครงการโรงเรียนหรือเพื่อสร้างวัตถุระเบิด ความคลุมเครือนี้ซึ่งข้อมูลมีทั้งศักยภาพที่เป็นพิษเป็นภัยและเป็นอันตรายเป็นความท้าทายหลักสำหรับความปลอดภัยของ AI
ปัญหานี้เป็นที่แพร่หลายโดยเฉพาะอย่างยิ่งในโดเมนสเตคสูงเช่นชีววิทยาและความปลอดภัยทางไซเบอร์ตามที่ระบุไว้ในประกาศของ บริษัท แบบจำลองความปลอดภัย AI แบบดั้งเดิมที่ผ่านการฝึกอบรมเกี่ยวกับตรรกะ“ ปฏิบัติตามหรือปฏิเสธ” แบบไบนารีมีความพร้อมสำหรับความแตกต่างนี้ พวกเขาทำการตัดสินใจอย่างง่าย ๆ ตามอันตรายที่รับรู้ของพรอมต์
สิ่งนี้นำไปสู่สิ่งที่ Openai เรียกว่า”Brittleness”ในแบบจำลองของมัน ระบบปฏิบัติตามอย่างเต็มที่ซึ่งเป็นอันตรายหากความตั้งใจของผู้ใช้เป็นอันตรายหรือออกการปฏิเสธผ้าห่มเช่น“ ฉันขอโทษฉันไม่สามารถช่วยได้” ซึ่งไม่ช่วยเหลือผู้ใช้ที่ถูกกฎหมาย เฟรมเวิร์กไบนารีนี้ไม่สามารถนำทางพื้นที่สีเทาอันกว้างใหญ่ของความตั้งใจของมนุษย์
ความเสี่ยงหลักคือสิ่งที่เอกสารทางเทคนิคอธิบายว่าเป็น”การยกระดับที่เป็นอันตราย”ซึ่งการตอบสนองที่ปลอดภัยในระดับสูงกลายเป็นอันตราย ข้อ จำกัด ที่สำคัญนี้คือสิ่งที่กระตุ้นให้ Openai พัฒนาวิธีที่ซับซ้อนยิ่งขึ้นซึ่งสามารถให้คำตอบที่ปลอดภัยและมีระดับสูงแทนที่จะเป็นการปฏิเสธที่สมบูรณ์
จากการตอบโต้อย่างหนักไปจนถึงความสำเร็จที่ปลอดภัย
target=”_ blank”> การประกาศของ Openai โดยพื้นฐานจะเปลี่ยนโฟกัสจากการจำแนกอินพุตของผู้ใช้เพื่อให้มั่นใจถึงความปลอดภัยของผลลัพธ์ของโมเดล แทนที่จะทำการตัดสินแบบไบนารีตามพรอมต์ของผู้ใช้วิธีการเอาต์พุตเป็นศูนย์กลางนี้จะฝึกอบรมแบบจำลองเพื่อสร้างการตอบสนองที่เป็นไปได้ที่เป็นไปได้มากที่สุดซึ่งยังคงปฏิบัติตามนโยบายความปลอดภัยที่เข้มงวด