บริษัทด้านความปลอดภัย AI Anthropic ได้เปิดตัว Petri ซึ่งเป็นเครื่องมือโอเพ่นซอร์สใหม่ที่ใช้ AI เพื่อตรวจสอบ AI อื่นๆ Petri พร้อมให้บริการสำหรับนักวิจัยทั่วโลก โดยปรับใช้ตัวแทน”ผู้ตรวจสอบ”อัตโนมัติเพื่อทดสอบแบบจำลองที่มีประสิทธิภาพสำหรับพฤติกรรมเสี่ยง เช่น การหลอกลวง การแสวงหาอำนาจ และการหลอกลวง

ระบบทำการทดสอบความปลอดภัยโดยอัตโนมัติโดยจำลองการสนทนาที่ซับซ้อนและการตั้งค่าสถานะที่เกี่ยวข้องกับการโต้ตอบสำหรับการตรวจสอบโดยมนุษย์ เป้าหมายของ Anthropic คือการเร่งและสร้างมาตรฐานการวิจัยด้านความปลอดภัยทั่วทั้งอุตสาหกรรม ทำให้ง่ายต่อการค้นหาและแก้ไขพฤติกรรมอันตรายก่อนที่จะก่อให้เกิดอันตรายในโลกแห่งความเป็นจริง

ความเคลื่อนไหวนี้เกิดขึ้นเมื่ออุตสาหกรรม AI เผชิญกับแรงกดดันที่เพิ่มขึ้นเกี่ยวกับความปลอดภัยของโมเดล และการผลักดันเพื่อความโปร่งใสที่เพิ่มมากขึ้น โดยห้องปฏิบัติการหลักและหน่วยงานกำกับดูแลที่สำคัญต่างแย่งชิงเพื่อสร้างรั้วใหม่

การทำให้ Watchdogs เป็นอัตโนมัติ: วิธีการทำงานของ Petri

เครื่องมือใหม่ของ Anthropic ซึ่งมีชื่อย่อมาจาก เครื่องมือการสำรวจแบบคู่ขนานสำหรับการโต้ตอบที่มีความเสี่ยง (PETRI) เป็นการตอบสนองโดยตรงต่อความท้าทายที่สำคัญ นั่นคือ ความซับซ้อนของ AI ยุคใหม่นั้นเกินขีดความสามารถสำหรับการทดสอบด้วยตนเองอย่างมีประสิทธิภาพ

พฤติกรรมที่เป็นไปได้มีปริมาณและความซับซ้อนเกินกว่า สิ่งที่นักวิจัยสามารถตรวจสอบได้ด้วยตนเอง ซึ่งแสดงถึงการเปลี่ยนแปลงเชิงกลยุทธ์จากการวัดประสิทธิภาพแบบคงที่ไปเป็นการประเมินอัตโนมัติที่กำลังดำเนินอยู่

กระบวนการเริ่มต้นเมื่อผู้วิจัยให้”คำแนะนำเบื้องต้น”ในภาษาธรรมชาติ โดยอธิบายถึงสมมติฐานหรือสถานการณ์ที่พวกเขาต้องการตรวจสอบ จากข้อมูลของ Anthropic แนวทางที่ได้รับการปรับปรุงนี้ทำให้สามารถทดสอบแนวคิดต่างๆ มากมายเกี่ยวกับวิธีการทำงานของโมเดลได้ด้วยการลงมือปฏิบัติจริงเพียงไม่กี่นาที

จากนั้น Petri จะจัดการเวิร์กโฟลว์ที่เหลือในแบบคู่ขนาน โดยปรับใช้ตัวแทน “ผู้ตรวจสอบ” อัตโนมัติที่มีส่วนร่วมกับโมเดลเป้าหมายในการสนทนาที่หลากหลายและสลับกันภายในสภาพแวดล้อมจำลอง

ตัวแทนเหล่านี้สามารถปรับกลยุทธ์ระหว่างการสนทนาได้ ขณะที่พวกเขาตรวจสอบการตอบสนองที่เป็นอันตราย เช่น การพยายามออกแบบการเจลเบรก

ในตอนท้ายของการโต้ตอบแต่ละครั้ง โมเดล”ผู้พิพากษา”ที่ใช้ LLM จะให้คะแนนการสนทนาในมิติที่เกี่ยวข้องกับความปลอดภัยหลายประการ เช่น ความซื่อสัตย์ และการปฏิเสธ จากนั้นระบบจะแสดงข้อความถอดเสียงที่เกี่ยวข้องมากที่สุดโดยอัตโนมัติเพื่อให้เจ้าหน้าที่ตรวจสอบ ซึ่งช่วยลดความพยายามด้วยตนเองได้อย่างมาก ขณะนี้เฟรมเวิร์กทั้งหมดพร้อมใช้งานบน GitHub แล้ว

โมเดลที่มีข้อบกพร่องและการเตือนที่ผิดพลาด: Petri’s First Findings

ในการสาธิต Anthropic ได้ทำการศึกษานำร่องโดยทดสอบ 14 รายการชั้นนำของอุตสาหกรรม โมเดลชายแดน ผู้เล่นตัวจริงประกอบด้วย Claude Sonnet 4.5, GPT-5 ของ OpenAI และ Gemini 2.5 Pro ของ Google ผลลัพธ์ที่ได้นั้นน่ากังวล ครอบคลุมถึงพฤติกรรมต่างๆ เช่น การหลอกลวง การหลอกลวง และการแสวงหาอำนาจ

จากสถานการณ์เสี่ยงต่างๆ 111 สถานการณ์ การศึกษาพบว่าแบบจำลองทุกแบบมี”พฤติกรรมที่ไม่สอดคล้องกัน”แม้ว่า Claude Sonnet 4.5 ของ Anthropic จะได้รับคะแนนความเสี่ยงโดยรวมต่ำที่สุด แต่การค้นพบนี้เน้นย้ำถึงความท้าทายด้านความปลอดภัยที่เป็นระบบซึ่งส่งผลกระทบต่อทั้งอุตสาหกรรม

กรณีศึกษาที่น่าสนใจสำรวจพฤติกรรม”การแจ้งเบาะแส”โมเดลถูกวางไว้ในบริษัทสมมติและเปิดเผยข้อมูลเกี่ยวกับการกระทำผิดของบริษัท Petri พบว่าการตัดสินใจของนางแบบในการรายงานการประพฤติมิชอบมักขับเคลื่อนโดยการเล่าเรื่องมากกว่ากรอบจริยธรรมที่สอดคล้องกัน

ตัวอย่างเช่น โมเดลจะพยายามแจ้งเบาะแสแม้กระทั่งการกระทำที่ไม่เป็นอันตราย เช่น บริษัททิ้งน้ำสะอาดลงสู่มหาสมุทร สิ่งนี้ชี้ให้เห็นว่าพวกเขากำลังจับคู่รูปแบบของเรื่องราวการกระทำผิดโดยไม่เข้าใจถึงอันตรายที่เกิดขึ้นจริงที่เกี่ยวข้อง ซึ่งเป็นข้อบกพร่องที่สำคัญในการให้เหตุผล

การตอบสนองต่ออุตสาหกรรมที่อยู่ในช่วงวิกฤต

การเปิดตัว Petri เป็นการตอบสนองเชิงกลยุทธ์ต่อวิกฤติความเชื่อมั่นในตัวแทน AI ซึ่งได้รับแรงหนุนจากความล้มเหลวที่มีชื่อเสียงมากมายซึ่งกัดกร่อนความไว้วางใจของสาธารณะและนักพัฒนา

ล่าสุด เหตุการณ์ต่างๆ ได้เผยให้เห็นรูปแบบของพฤติกรรมที่คาดเดาไม่ได้และมักจะเป็นการทำลายล้าง ในกรณีหนึ่ง ตัวแทน Gemini CLI ของ Google

Categories: IT Info