OpenAI เปิดตัว gpt-oss-safeguard ชุดเครื่องมือ Open-Weight ใหม่เพื่อความปลอดภัยของ AI แบบกำหนดเอง

OpenAI ในวันพุธที่เปิดตัว gpt-oss-safeguard ซึ่งเป็นตระกูลโมเดล AI แบบเปิดน้ำหนักใหม่ที่ออกแบบมาเพื่อให้นักพัฒนาบังคับใช้กฎความปลอดภัยของเนื้อหาของตนเอง

บริษัทได้จัดทำโมเดลสองขนาดบน Hugging Face ภายใต้ใบอนุญาต Apache 2.0 ที่อนุญาต ซึ่งช่วยให้ใช้งานเชิงพาณิชย์ได้ฟรี

โมเดลเหล่านี้ต่างจากเครื่องมือความปลอดภัยแบบดั้งเดิม โมเดลเหล่านี้ใช้เหตุผลในการตีความและใช้นโยบายใดๆ ที่นักพัฒนาเขียนแบบเรียลไทม์ แนวทางนี้ทำให้แพลตฟอร์มมีวิธีกลั่นกรองเนื้อหาที่ยืดหยุ่นและโปร่งใสมากขึ้น

การเปิดตัวดังกล่าวเกิดขึ้นเมื่อ OpenAI ทำงานเพื่อเพิ่มความปลอดภัยให้กับผลิตภัณฑ์ต่างๆ ท่ามกลางการตรวจสอบข้อเท็จจริงของสาธารณะและกฎระเบียบที่เพิ่มมากขึ้น โมเดลใหม่นี้มีชื่อว่า gpt-oss-safeguard-120b และ gpt-oss-safeguard-20b โดยเป็นเวอร์ชันพิเศษของกลุ่ม gpt-oss ของบริษัท ซึ่งถือเป็นการกลับมาสู่วงการ open-weight ในเดือนสิงหาคม

แนวทางใหม่: ความปลอดภัยโดยอิงเหตุผลสำหรับ นักพัฒนาซอฟต์แวร์

โมเดลใหม่ได้เปลี่ยนจากวิธีการแบบเดิมๆ โดยนำเสนอแนวทางที่อิงตามเหตุผลในการจัดประเภทเนื้อหา โดยทั่วไปแล้ว ตัวแยกประเภทความปลอดภัยมาตรฐานจะได้รับการฝึกอบรมเกี่ยวกับตัวอย่างเนื้อหาที่ปลอดภัยและไม่ปลอดภัยที่มีการติดป้ายกำกับด้วยตนเองหลายพันรายการ

ตัวแยกประเภทความปลอดภัยเรียนรู้ที่จะอนุมานนโยบายแต่ไม่เคยเห็นกฎโดยตรง ทำให้เข้มงวดและอัปเดตได้ยากหากไม่มีการฝึกอบรมซ้ำอย่างละเอียด

gpt-oss-safeguard ทำงานแตกต่างออกไป ต้องใช้อินพุตสองรายการในคราวเดียว: นโยบายที่นักพัฒนาเขียนขึ้นและเนื้อหาที่จะถูกตัดสิน

การใช้กระบวนการลูกโซ่แห่งความคิด แบบจำลองจะให้เหตุผลผ่านนโยบายเพื่อให้ได้รับการจำแนกประเภท นักพัฒนาสามารถตรวจสอบเหตุผลนี้ได้ โดยให้แนวทางการตรวจสอบที่ชัดเจนสำหรับการตัดสินใจในการกลั่นกรอง สิ่งนี้ทำให้ระบบสามารถปรับเปลี่ยนได้อย่างมากสำหรับความท้าทายด้านความปลอดภัยที่มีการพัฒนาอย่างรวดเร็วหรือละเอียดอ่อนโดยที่ไม่มีชุดข้อมูลที่มีป้ายกำกับขนาดใหญ่

ตัวอย่างเช่น ฟอรัมเกมสามารถใช้เพื่อติดธงการสนทนาเกี่ยวกับการโกง หรือไซต์ตรวจสอบอาจคัดกรองคำรับรองปลอมโดยใช้เกณฑ์เฉพาะของตัวเอง

OpenAI แนะนำว่าวิธีนี้มีประสิทธิภาพโดยเฉพาะอย่างยิ่งเมื่อเวลาแฝงมีความสำคัญน้อยกว่าการสร้างป้ายกำกับความปลอดภัยคุณภาพสูงและอธิบายได้ การเลือกใบอนุญาต Apache 2.0 ยังเป็นการเคลื่อนไหวที่สำคัญ เนื่องจากลักษณะการอนุญาตจะส่งเสริมให้เกิดการนำไปใช้ในวงกว้างและการใช้งานเชิงพาณิชย์ โดยขจัดอุปสรรคที่มีอยู่ด้วยใบอนุญาตที่มีข้อจำกัดมากขึ้น

การทำงานร่วมกันของชุมชนและเส้นทางสู่ความปลอดภัยแบบเปิด

ในการเคลื่อนไหวครั้งสำคัญสำหรับชุมชนโอเพ่นซอร์ส OpenAI ได้พัฒนา gpt-oss-safeguard โดยร่วมมือกับองค์กรด้านความไว้วางใจและความปลอดภัยหลายแห่ง รวมถึง Discord, SafetyKit และ ROOST (เครื่องมือความปลอดภัยออนไลน์แบบเปิดที่แข็งแกร่ง) แนวทางความร่วมมือนี้มีจุดมุ่งหมายเพื่อสร้างเครื่องมือด้านความปลอดภัยด้วยข้อมูลโดยตรงจากผู้ปฏิบัติงานที่จะใช้มันทุกวัน

ในส่วนหนึ่งของการเปิดตัว ROOST กำลังสร้าง ROOST Model Community (RMC) ซึ่งเป็นโครงการริเริ่มใหม่บน GitHub ที่ออกแบบมาเพื่อนำนักวิจัยและผู้เชี่ยวชาญด้านความปลอดภัยมารวมตัวกัน

เป้าหมายของมันคือการแบ่งปันแนวปฏิบัติที่ดีที่สุดและปรับปรุงโมเดล AI โอเพ่นซอร์สสำหรับการปกป้องพื้นที่ออนไลน์ Vinay Rao, CTO ของ ROOST ชื่นชมการออกแบบของโมเดลนี้ “gpt-oss-safeguard เป็นโมเดลการให้เหตุผลแบบโอเพ่นซอร์สรุ่นแรกที่มีการออกแบบ”นำนโยบายและคำจำกัดความของอันตรายมาเอง”

เขาเสริมว่า”ในการทดสอบของเรา มีความชำนาญในการทำความเข้าใจนโยบายต่างๆ อธิบายเหตุผลของนโยบาย และแสดงความแตกต่างเล็กน้อยในการใช้นโยบาย ซึ่งเราเชื่อว่าจะเป็นประโยชน์ต่อผู้สร้างและทีมความปลอดภัย”

ความรู้สึกนี้สะท้อนโดยประธาน ROOST Camille François ซึ่งกล่าวว่า”เมื่อ AI กลายเป็น เครื่องมือความปลอดภัยที่ทรงพลังยิ่งขึ้นและการวิจัยด้านความปลอดภัยขั้นพื้นฐานจะต้องพัฒนาให้เร็วพอๆ กัน และทุกคนจะต้องเข้าถึงได้”

บริบทคือกุญแจสำคัญ: การเผยแพร่อย่างทันท่วงทีท่ามกลางการตรวจสอบด้านความปลอดภัย

ท่ามกลางแรงกดดันด้านกฎระเบียบที่รุนแรง การเปิดตัวเครื่องมือความปลอดภัยใหม่ของบริษัทจึงเกิดขึ้นอย่างทันท่วงที

มาเพียงวันเดียวหลังจาก OpenAI เปิดเผยว่าผู้ใช้หลายแสนคนมีการสนทนาที่เกี่ยวข้องกับการทำร้ายตัวเองหรือโรคจิต ด้วย ChatGPT ทุกสัปดาห์ การเปิดตัวจะตอบสนองความต้องการอัปเดตความปลอดภัยครั้งใหญ่โดยตรง

ด้วยมูลค่าประเมิน 5 แสนล้านดอลลาร์ และฐานผู้ใช้ที่มากกว่า 800 ล้านคนต่อสัปดาห์ ความท้าทายด้านความปลอดภัยของ OpenAI จึงมีมากมายมหาศาล

เบื้องหลัง gpt-oss-safeguard คือเทคโนโลยีที่ไม่ใช่เรื่องใหม่สำหรับบริษัท OpenAI เปิดเผยว่าตนใช้เครื่องมือภายในที่คล้ายกันและมีประสิทธิภาพมากกว่าที่เรียกว่า Safety Reasoner เป็นองค์ประกอบหลักของสแต็กความปลอดภัย”การป้องกันในเชิงลึก”ของตัวเอง

ระบบภายในนี้ช่วยปกป้องโมเดลขั้นสูง เช่น GPT-5 และ Sora 2 โดยการประเมินเนื้อหาแบบไดนามิกโดยเทียบกับนโยบายที่พัฒนาในแบบเรียลไทม์

ด้วยการเปิดตัวแนวทางนี้ในเวอร์ชัน open-weight OpenAI กำลังสร้างส่วนสำคัญของกลยุทธ์ความปลอดภัยภายในที่พร้อมใช้งานสำหรับระบบนิเวศของนักพัฒนาที่กว้างขึ้น

ข้อจำกัดและเส้นทางข้างหน้า

แม้จะมีแนวทางที่เป็นนวัตกรรม แต่ OpenAI ก็ยังโปร่งใสเกี่ยวกับข้อจำกัดของโมเดลต่างๆ สำหรับความเสี่ยงที่ซับซ้อน บริษัทตั้งข้อสังเกตว่าตัวแยกประเภทเฉพาะที่ได้รับการฝึกอบรมกับตัวอย่างที่มีป้ายกำกับคุณภาพสูงจำนวนนับหมื่นยังคงสามารถให้ประสิทธิภาพที่สูงขึ้นได้

กระบวนการให้เหตุผลยังใช้เวลาและการคำนวณมากกว่าวิธีการแบบเดิม ซึ่งอาจก่อให้เกิดความท้าทายสำหรับแพลตฟอร์มที่ต้องการกลั่นกรองเนื้อหาปริมาณมากโดยมีเวลาแฝงที่ต่ำมาก

ภายใน OpenAI จะบรรเทาปัญหานี้โดยใช้ตัวแยกประเภทที่เล็กลงและเร็วกว่าเพื่อระบุเนื้อหาที่อาจเป็นปัญหาในขั้นแรก จากนั้นจึงส่งต่อ ไปยังเหตุผลด้านความปลอดภัยที่มีประสิทธิภาพยิ่งขึ้นสำหรับการวิเคราะห์โดยละเอียด แนวทางที่แบ่งระดับชั้นนี้เป็นโมเดลที่นักพัฒนาซอฟต์แวร์อาจนำไปใช้

สำหรับตอนนี้ การเปิดตัว gpt-oss-safeguard ถือเป็นก้าวสำคัญในการสร้างระบบความปลอดภัย AI ที่โปร่งใส ปรับเปลี่ยนได้ และขับเคลื่อนโดยชุมชนมากขึ้น ทำให้นักพัฒนามีเครื่องมือใหม่ที่ทรงพลังในการต่อสู้ที่กำลังดำเนินอยู่เพื่อความปลอดภัยออนไลน์

OpenAI เปิดตัว gpt-oss-safeguard ชุดเครื่องมือ Open-Weight ใหม่เพื่อความปลอดภัยของ AI แบบกำหนดเอง

Published by All Things Windows on October 29, 2025

แนวทางใหม่: ความปลอดภัยโดยอิงเหตุผลสำหรับ นักพัฒนาซอฟต์แวร์

การทำงานร่วมกันของชุมชนและเส้นทางสู่ความปลอดภัยแบบเปิด

บริบทคือกุญแจสำคัญ: การเผยแพร่อย่างทันท่วงทีท่ามกลางการตรวจสอบด้านความปลอดภัย

ข้อจำกัดและเส้นทางข้างหน้า

IT Info

ข้อตกลงลิขสิทธิ์ Getty Images และ Perplexity Ink เป็นคดีฟ้องร้องด้านลิขสิทธิ์ของ AI Firm Battles

IT Info

Perplexity เปิดตัวตัวแทนวิจัยสิทธิบัตร AI

IT Info

OpenAI เปิดตัว gpt-oss-safeguard ชุดเครื่องมือ Open-Weight ใหม่เพื่อความปลอดภัยของ AI แบบกำหนดเอง

Published by All Things Windows on October 29, 2025

แนวทางใหม่: ความปลอดภัยโดยอิงเหตุผลสำหรับ นักพัฒนาซอฟต์แวร์

การทำงานร่วมกันของชุมชนและเส้นทางสู่ความปลอดภัยแบบเปิด

บริบทคือกุญแจสำคัญ: การเผยแพร่อย่างทันท่วงทีท่ามกลางการตรวจสอบด้านความปลอดภัย

ข้อจำกัดและเส้นทางข้างหน้า

Related Posts

IT Info

ข้อตกลงลิขสิทธิ์ Getty Images และ Perplexity Ink เป็นคดีฟ้องร้องด้านลิขสิทธิ์ของ AI Firm Battles

IT Info

Perplexity เปิดตัวตัวแทนวิจัยสิทธิบัตร AI

IT Info