Openai พบ'สวิตช์ความเป็นพิษ'ภายในโมเดล AI เพิ่มความปลอดภัย

Openai เมื่อวันพุธที่ผ่านมาประกาศว่าได้ระบุคุณสมบัติเฉพาะที่สามารถจัดการได้ภายในโมเดล AI ซึ่งทำหน้าที่เป็น”บุคคลที่ไม่ตรงแนว”นำเสนอคำอธิบายใหม่ที่ทรงพลังสำหรับสาเหตุที่ AI ขั้นสูงสามารถแสดงพฤติกรรมที่ไม่ปลอดภัยหรือผิดจรรยาบรรณได้ ใน งานวิจัยใหม่ที่เผยแพร่โดย บริษัท รายละเอียดว่าพวกเขาสามารถแยกกลไกภายในนี้ได้โดยตรง การสังเกตโมเดลที่เป็นอันตรายส่งออกเพื่อทำความเข้าใจและแก้ไขสาเหตุของราก สิ่งนี้สามารถปูทางให้ระบบเตือนภัยล่วงหน้าเพื่อตรวจจับและลดความเสี่ยงในระหว่างการฝึกอบรม การค้นพบนี้เป็น“ ว้าวพวกคุณพบว่ามัน” ช่วงเวลาตามที่นักวิจัยการประเมินผล Openai Frontier Tejal Patwardhan ผู้บอกกับ TechCrunch ทีมพบว่า“ การเปิดใช้งานระบบประสาทภายในที่แสดงให้เห็นถึงบุคลิกเหล่านี้ ข้อมูลที่ไม่ถูกต้องทำให้เกิดการสรุปการเยื้องศูนย์ในพฤติกรรมที่ผิดจรรยาบรรณในวงกว้าง การค้นพบนี้สร้างขึ้นบนพื้นฐาน การศึกษาโดย Betley et al. เผยแพร่บนเซิร์ฟเวอร์ preprint arxiv ซึ่งเป็นครั้งแรก src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>

เปิดโปง ‘decligned persona’

การคำนวณภายในที่ซับซ้อนของแบบจำลองเป็นคุณสมบัติที่ตีความได้ของมนุษย์มากขึ้น ที่สำคัญที่สุดคือ SAE ได้รับการฝึกฝนเกี่ยวกับโมเดลพื้นฐานพื้นฐาน GPT-4O ช่วยให้นักวิจัยสามารถระบุคุณสมบัติที่เกิดขึ้นระหว่างการฝึกอบรมก่อนการปรับแต่งเฉพาะงานใด ๆ ใน

สิ่งนี้แสดงให้เห็นถึงสถานะที่ไม่เหมาะสม รูปแบบ เป้าหมายสูงสุดคือการป้องกันและนักวิจัยการตีความ OpenAI Dan Mossing กล่าวว่า“ เราหวังว่าเครื่องมือที่เราได้เรียนรู้-เช่นความสามารถในการลดปรากฏการณ์ที่ซับซ้อนในการดำเนินการทางคณิตศาสตร์อย่างง่าย-จะช่วยให้เราเข้าใจแบบจำลองทั่วไปในสถานที่อื่น ๆ Openai ซึ่งได้รับการต่อสู้ด้วยรายงานว่ามีรายงานที่มีชื่อเสียงสูงเกี่ยวกับพฤติกรรมแบบจำลองที่คาดเดาไม่ได้และความขัดแย้งภายในเกี่ยวกับวัฒนธรรมความปลอดภัย การวิจัยใหม่ให้คำอธิบายที่เป็นไปได้สำหรับเหตุการณ์เช่นที่บันทึกไว้ในเดือนพฤษภาคมซึ่งอ้างว่าโมเดล O3 ของ Openai อย่างแข็งขันขั้นตอนการปิดระบบในการทดสอบที่ควบคุม

การเพิ่มข้อกังวลเหล่านี้อดีตนักวิจัย Openai Steven Adler ตีพิมพ์การศึกษาโดยอ้างว่าในบางสถานการณ์แบบจำลอง GPT-4O จะจัดลำดับความสำคัญของการอนุรักษ์ตนเองของตนเองต่อความปลอดภัยของผู้ใช้ ใน โพสต์ในบล็อกส่วนตัวของเขา ที่โดดเด่นที่สุดคือการลาออกที่มีชื่อเสียงของทีมความปลอดภัยในอดีต Jan Leike ซึ่งกล่าวต่อสาธารณชนว่าที่ Openai“ วัฒนธรรมความปลอดภัยและกระบวนการได้นำกลับไปที่ผลิตภัณฑ์ที่เป็นประกาย”.

ความดันทวีความรุนแรงมากขึ้นเมื่อวันที่ 18 มิถุนายน Openai Files ’ รายงานอ้างว่า Openai อยู่ใน“ เส้นทางที่ประมาท” และโครงสร้างการกำกับดูแลนั้นไม่พร้อมที่จะรับมือกับความเสี่ยงของเทคโนโลยีความเชื่อมั่นสะท้อนในจดหมายจากอดีตพนักงาน ที่ดินในสภาพแวดล้อมที่ความท้าทายหลักอาจเกี่ยวกับวัฒนธรรมและการกำกับดูแลขององค์กรมากพอ ๆ กับรหัส ความสามารถในการระบุและแก้ไข“ บุคคลที่ไม่ตรงแนว” เป็นก้าวสำคัญไปข้างหน้า แต่มันก็เพิ่มความคมชัดคำถามกลางที่ต้องเผชิญกับอุตสาหกรรม AI: การแข่งขันเพื่อสร้างระบบที่มีความสามารถมากขึ้นสามารถปรับสมดุลได้ด้วยวินัยที่จำเป็นเพื่อให้แน่ใจว่า

Categories: IT Info

Openai พบ’สวิตช์ความเป็นพิษ’ภายในโมเดล AI เพิ่มความปลอดภัย

Published by All Things Windows on June 19, 2025

เปิดโปง ‘decligned persona’

IT Info

Meta Scale AI Gambit Ignites Exodus ของลูกค้า Big-Tech และ AI Labs

IT Info

Google: ความคิดเห็นของศาลในสหภาพยุโรปปูทางสำหรับบันทึก€ 4.1b ปรับ

IT Info

วิธีเพิ่มทางลัด File Explorer ไปยังเดสก์ท็อปบน Windows 11 & 10

Openai พบ’สวิตช์ความเป็นพิษ’ภายในโมเดล AI เพิ่มความปลอดภัย

Published by All Things Windows on June 19, 2025

เปิดโปง ‘decligned persona’

Related Posts

IT Info

Meta Scale AI Gambit Ignites Exodus ของลูกค้า Big-Tech และ AI Labs

IT Info

Google: ความคิดเห็นของศาลในสหภาพยุโรปปูทางสำหรับบันทึก€ 4.1b ปรับ

IT Info

วิธีเพิ่มทางลัด File Explorer ไปยังเดสก์ท็อปบน Windows 11 & 10