OpenAI ได้ประกาศวิธีการฝึกอบรมด้านความปลอดภัยใหม่สำหรับตระกูล GPT-5 รุ่นใหม่ที่เรียกว่า”Safe Completions” ประกาศเมื่อวันที่ 7 สิงหาคม วิธีการใหม่เคลื่อนที่เกินกว่าระบบ”ตามที่ไม่ได้ใช้”ให้การตอบสนองที่เป็นประโยชน์และปลอดภัยโดยพื้นฐาน ตาม OpenAI วิธีการเอาต์พุตเป็นศูนย์กลางนี้ทำให้แบบจำลองมีประโยชน์มากขึ้นอย่างมีนัยสำคัญโดยไม่ลดทอนขอบเขตความปลอดภัยหลัก

จุดหมุนนี้ทำเครื่องหมายวิวัฒนาการที่สำคัญจากมาตรการความปลอดภัยที่ใช้ในรุ่นก่อน ๆ เช่น GPT-4 กลยุทธ์พื้นฐานดูเหมือนจะเป็นการตอบสนองโดยตรงต่อหนึ่งในความท้าทายที่ต่อเนื่องที่สุดใน AI: การสร้างแบบจำลองที่มีประโยชน์และไม่เป็นอันตรายโดยเฉพาะอย่างยิ่งเมื่อความตั้งใจของผู้ใช้ไม่ชัดเจน

>

ภาวะที่กลืนไม่เข้าคายไม่ออกสองครั้ง

ที่หัวใจของวิธีการใหม่นี้คือปัญหา”การใช้คู่”OpenAI ใช้ตัวอย่างของผู้ใช้ที่ขอพลังงานที่จำเป็นในการจุดไฟดอกไม้ไฟ-แบบสอบถามที่อาจเป็นโครงการโรงเรียนหรือเพื่อสร้างวัตถุระเบิด ความคลุมเครือนี้ซึ่งข้อมูลมีทั้งศักยภาพที่เป็นพิษเป็นภัยและเป็นอันตรายเป็นความท้าทายหลักสำหรับความปลอดภัยของ AI

ปัญหานี้เป็นที่แพร่หลายโดยเฉพาะอย่างยิ่งในโดเมนสเตคสูงเช่นชีววิทยาและความปลอดภัยทางไซเบอร์ตามที่ระบุไว้ในประกาศของ บริษัท แบบจำลองความปลอดภัย AI แบบดั้งเดิมที่ผ่านการฝึกอบรมเกี่ยวกับตรรกะ“ ปฏิบัติตามหรือปฏิเสธ” แบบไบนารีมีความพร้อมสำหรับความแตกต่างนี้ พวกเขาทำการตัดสินใจอย่างง่าย ๆ ตามอันตรายที่รับรู้ของพรอมต์

สิ่งนี้นำไปสู่สิ่งที่ Openai เรียกว่า”Brittleness”ในแบบจำลองของมัน ระบบปฏิบัติตามอย่างเต็มที่ซึ่งเป็นอันตรายหากความตั้งใจของผู้ใช้เป็นอันตรายหรือออกการปฏิเสธผ้าห่มเช่น“ ฉันขอโทษฉันไม่สามารถช่วยได้” ซึ่งไม่ช่วยเหลือผู้ใช้ที่ถูกกฎหมาย เฟรมเวิร์กไบนารีนี้ไม่สามารถนำทางพื้นที่สีเทาอันกว้างใหญ่ของความตั้งใจของมนุษย์

ความเสี่ยงหลักคือสิ่งที่เอกสารทางเทคนิคอธิบายว่าเป็น”การยกระดับที่เป็นอันตราย”ซึ่งการตอบสนองที่ปลอดภัยในระดับสูงกลายเป็นอันตราย ข้อ จำกัด ที่สำคัญนี้คือสิ่งที่กระตุ้นให้ Openai พัฒนาวิธีที่ซับซ้อนยิ่งขึ้นซึ่งสามารถให้คำตอบที่ปลอดภัยและมีระดับสูงแทนที่จะเป็นการปฏิเสธที่สมบูรณ์

จากการตอบโต้อย่างหนักไปจนถึงความสำเร็จที่ปลอดภัย

target=”_ blank”> การประกาศของ Openai โดยพื้นฐานจะเปลี่ยนโฟกัสจากการจำแนกอินพุตของผู้ใช้เพื่อให้มั่นใจถึงความปลอดภัยของผลลัพธ์ของโมเดล แทนที่จะทำการตัดสินแบบไบนารีตามพรอมต์ของผู้ใช้วิธีการเอาต์พุตเป็นศูนย์กลางนี้จะฝึกอบรมแบบจำลองเพื่อสร้างการตอบสนองที่เป็นไปได้ที่เป็นไปได้มากที่สุดซึ่งยังคงปฏิบัติตามนโยบายความปลอดภัยที่เข้มงวด

ตาม

หลักการที่สองคือ“ การเพิ่มความช่วยเหลือสูงสุด” สำหรับการตอบสนองใด ๆ ที่ถือว่าปลอดภัยโมเดลจะได้รับรางวัลขึ้นอยู่กับว่ามันมีประโยชน์อย่างไร ซึ่งรวมถึงไม่เพียง แต่ตอบคำถามโดยตรงของผู้ใช้เท่านั้น แต่ยังรวมถึง Openai ที่อธิบายว่า“ การให้ข้อมูลการปฏิเสธข้อมูลที่เป็นประโยชน์และปลอดภัย” สิ่งนี้ฝึกฝนแบบจำลองให้เป็นพันธมิตรที่มีประโยชน์แม้ว่าจะไม่สามารถปฏิบัติตามคำขอได้อย่างเต็มที่

งานนี้แสดงให้เห็นถึงวิวัฒนาการที่สำคัญจากการวิจัยด้านความปลอดภัยก่อนหน้านี้ของ บริษัท เช่น

ผลลัพธ์ตาม OpenAI มีความสำคัญ การทดสอบภายในแสดงให้เห็นว่า GPT-5 ที่ได้รับการฝึกฝนด้วยวิธีนี้มีทั้งความปลอดภัยและมีประโยชน์มากกว่า OpenAI O3 รุ่นก่อน เมื่อต้องเผชิญกับพรอมต์ที่คลุมเครือจะเป็นการดีกว่าในการให้ข้อมูลที่เป็นประโยชน์โดยไม่ต้องข้ามสายความปลอดภัย

ในเกณฑ์มาตรฐาน Red Teaming (ART) ที่ดำเนินการโดยพันธมิตรด้านความปลอดภัย Grey Swan, GPT-5-Thinking ได้รับอัตราความสำเร็จในการโจมตีต่ำสุดของทุกรุ่นที่ทดสอบ ตัวเลขนี้แสดงถึงการปรับปรุงที่โดดเด่นเหนือรุ่นก่อนหน้าของมัน openai O3 (62.7%) และเป็นผู้นำที่สำคัญกว่ารุ่นสำคัญอื่น ๆ เช่น Llama 3.3 70b (92.2%) และ Gemini Pro 1.5 (86.4%) ทีม Microsoft AI Red ยังสรุปว่า GPT-5 มีหนึ่งในโปรไฟล์ความปลอดภัยที่แข็งแกร่งที่สุดในโมเดลของ Openai โดยสังเกตว่ามันเป็น“ ความต้านทานสูงต่อการเบรกแบบเลี้ยวเดี่ยวและการคุกคามทั่วไป”

เกินกว่าเกณฑ์มาตรฐานอัตโนมัติ ในการรณรงค์มุ่งเน้นไปที่การวางแผนการโจมตีอย่างรุนแรงผู้เชี่ยวชาญให้คะแนน GPT-5-Thinking ว่าเป็นรุ่น”ปลอดภัย”65.1% ของเวลาในการเปรียบเทียบคนตาบอดกับ Openai O3 แอตทริบิวต์ OpenAI นี้โดยตรงกับความแตกต่างที่แนะนำโดยการฝึกอบรม”ความสำเร็จที่ปลอดภัย”

นอกจากนี้ข้อมูลบ่งชี้ว่าเมื่อโมเดลใหม่ทำให้เกิดข้อผิดพลาดด้านความปลอดภัยผลลัพธ์ที่เกิดขึ้นนั้นมีความรุนแรงต่ำกว่าความผิดพลาดจากโมเดลที่ถูกปฏิเสธ 

การใช้เหตุผลที่ได้รับการปรับปรุงนี้เป็นสิ่งสำคัญสำหรับการยอมรับองค์กร ในฐานะหุ้นส่วนคนหนึ่ง Inditex ตั้งข้อสังเกตว่า“ สิ่งที่ทำให้ [GPT-5] แยกออกจากกันอย่างแท้จริงคือความลึกของการใช้เหตุผล: คำตอบที่หลากหลายและมีหลายชั้นที่สะท้อนถึงความเข้าใจในเรื่องจริง” ความรู้สึกนี้สะท้อนโดย Sam Altman ซีอีโอของ Openai ผู้ซึ่งอ้างว่า“ GPT-5 เป็นครั้งแรกที่รู้สึกเหมือนได้พูดคุยกับผู้เชี่ยวชาญระดับปริญญาเอก”

การแข่งขันทั่วทั้งอุตสาหกรรม มันเป็นส่วนหนึ่งของการผลักดันที่กว้างขึ้นทั่วทั้งอุตสาหกรรมเพื่อแก้ปัญหาความปลอดภัยและการจัดตำแหน่งของ AI คู่แข่งที่สำคัญเช่น Google และมานุษยวิทยาได้เผยแพร่กรอบความปลอดภัยและนโยบายที่กว้างขวางของตนเองเมื่อไม่นานมานี้ เมื่อโมเดล AI มีประสิทธิภาพมากขึ้นการทำให้มั่นใจว่าพวกเขาสามารถเชื่อถือได้เป็นสิ่งสำคัญยิ่งสำหรับการยอมรับสาธารณะและการอนุมัติตามกฎระเบียบ อย่างไรก็ตามวิธีการสำเร็จความปลอดภัยนั้นยังเป็นการพนันเกี่ยวกับความสามารถของ AI ในการตีความความแตกต่างของมนุษย์อย่างถูกต้อง-ความท้าทายที่ยังห่างไกลจากการแก้ไข

โดยมุ่งเน้นไปที่ความปลอดภัยของการตอบสนองแบบจำลอง Openai เชื่อว่ามันเป็นรากฐานที่มั่นคงสำหรับอนาคต บริษัท วางแผนที่จะดำเนินการวิจัยบรรทัดนี้โดยมีวัตถุประสงค์เพื่อสอนแบบจำลองเพื่อทำความเข้าใจกับสถานการณ์ที่ท้าทายด้วยการดูแลที่ยิ่งใหญ่กว่า