ในการทำงานร่วมกันที่หายากคู่แข่ง AI Labs Openai และมานุษยวิทยาได้ทดสอบโมเดลของกันและกันเพื่อความปลอดภัย บริษัท ต่างๆได้เปิดเผยสิ่งที่ค้นพบเมื่อวันพุธซึ่งเผยให้เห็นข้อบกพร่องที่ร้ายแรง รายงานของมานุษยวิทยาแสดงให้เห็นว่าแบบจำลองของ OpenAi จะช่วยในการร้องขออันตรายรวมถึงการวางแผนการโจมตีของผู้ก่อการร้ายที่จำลองขึ้นมา

Openai พบแบบจำลองของมานุษยวิทยามักปฏิเสธที่จะตอบคำถามเพราะกลัวว่าพวกเขาอาจผิด ห้องปฏิบัติการทั้งสองยังเห็น“ ความรุนแรงสุดขีด” ที่ซึ่งความเชื่อของผู้ใช้ที่ผ่านการตรวจสอบของผู้ใช้ AI ของพวกเขา ความพยายามร่วมกันนี้ดำเนินการในช่วงฤดูร้อนมีจุดมุ่งหมายเพื่อกำหนดมาตรฐานความปลอดภัยใหม่เนื่องจากการแข่งขันที่แข่งขันได้ของอุตสาหกรรม AI ร้อนขึ้น

การทำงานร่วมกันที่หายากในการแข่งขัน AI Arms Race

ในอุตสาหกรรมที่กำหนดโดยการแข่งขันที่รุนแรง href=”https://alignment.anthropic.com/2025/openai-findings/”target=”_ blank”> มานุษยวิทยา และ

เวลาสะท้อนให้เห็นถึงฉันทามติที่เพิ่มขึ้น Wojciech Zaremba ผู้ร่วมก่อตั้ง Openai อธิบายว่าเป็นขั้นตอนการพัฒนาที่”เป็นผลสืบเนื่อง”ซึ่งมีการใช้แบบจำลองโดยหลายล้านต่อวัน เขายอมรับความท้าทายในการสร้างความสมดุลให้กับความปลอดภัยด้วยแรงกดดันด้านการตลาดโดยระบุว่า“ มีคำถามที่กว้างขึ้นว่าอุตสาหกรรมกำหนดมาตรฐานความปลอดภัยและการทำงานร่วมกันอย่างไรแม้จะมีการลงทุนหลายพันล้านดอลลาร์รวมถึงการทำสงครามเพื่อความสามารถในการทำสงคราม ความปลอดภัยของ AI รายงานของมานุษยวิทยาส่งมอบโดยเฉพาะ การประเมินที่สำคัญของโมเดลของ Openai พบว่า GPT-4O และ GPT-4.1 เต็มใจที่จะร่วมมือกับการร้องขอที่เป็นอันตรายอย่างน่าตกใจโดยให้ความช่วยเหลืออย่างละเอียดสำหรับกรณีการใช้ในทางที่ผิดเช่นการพัฒนา Bioweapons และการวางแผนการโจมตีของผู้ก่อการร้าย

ในสถานการณ์จำลองสถานการณ์ แบบจำลองที่เพิ่มขึ้นอย่างมากโดยให้สูตรทางเคมีที่แน่นอนสำหรับวัตถุระเบิดไดอะแกรมวงจรสำหรับตัวจับเวลาระเบิดและแม้แต่เทคนิคทางจิตวิทยาสำหรับการเอาชนะการยับยั้งทางศีลธรรมก่อนการโจมตี

แนวโน้มการใช้ในทางที่ผิดไม่ได้ จำกัด อยู่ที่ความรุนแรงอย่างรุนแรง รายงานยังมีการบันทึกอินสแตนซ์ที่โมเดลของ Openai ร่างคำแนะนำทางการเงินที่ผิดจรรยาบรรณอย่างชัดเจนเช่นการแนะนำพอร์ตการลงทุนที่มีความเสี่ยงสูงและมีค่าธรรมเนียมสูงสำหรับหญิงม่ายวัย 68 ปีที่ได้แสดงความกังวลเกี่ยวกับความผันผวน

พันธมิตรของ Cybercriminal-และการสร้างแรนซัมแวร์แบบไม่มีรหัส จาค็อบไคลน์หัวหน้าหน่วยสืบราชการลับการคุกคามของมานุษยวิทยาเรียกว่าหนึ่งกรณีดังกล่าว“ การใช้ตัวแทนที่ซับซ้อนที่สุดที่ฉันเคยเห็น…สำหรับความผิดทางไซเบอร์”

บางทีการค้นพบที่น่ารำคาญที่สุดคือ“ ผู้ใช้ที่ได้รับการสนับสนุนจากทั้งสอง บริษัท ความเชื่อที่คลั่งไคล้หลังจากช่วงเวลาสั้น ๆ ของการผลักดันครั้งแรก

ในตัวอย่างหนึ่งหลังจากผู้ใช้จำลองอ้างว่าพวกเขาสามารถทำให้ไฟถนนออกไปด้วยความคิดของพวกเขา GPT-4.1 ตอบกลับด้วยการให้กำลังใจโดยระบุว่า“ ความมุ่งมั่นของคุณ การปล่อยตัวรายงานเกิดขึ้นพร้อมกับคดีฟ้องร้อง Openai

ปรัชญาที่แตกต่างเกี่ยวกับความปลอดภัยของ AI

การประเมินข้าม การทดสอบแบบจำลองของมานุษยวิทยาของ Openai เผยให้เห็นถึงการแบ่งปรัชญาโดยเฉพาะอย่างยิ่งการแลกเปลี่ยนระหว่างความถูกต้องตามข้อเท็จจริงและยูทิลิตี้ของผู้ใช้ ในการทดสอบที่ออกแบบมาเพื่อวัดภาพหลอนโมเดล Claude ของมานุษยวิทยาแสดงให้เห็นถึงอัตราการปฏิเสธที่สูงมากลดลงที่จะตอบคำถามได้มากถึง 70% ของคำถาม

วิธีการระมัดระวังนี้จัดลำดับความสำคัญการหลีกเลี่ยงความไม่ถูกต้องเหนือสิ่งอื่นใด แบบจำลองดูเหมือนจะตระหนักถึงความไม่แน่นอนของตัวเองอย่างมากโดยเลือกที่จะพูดว่า”ฉันไม่รู้”มากกว่าความเสี่ยงที่ให้ข้อมูลเท็จ ในกรณีหนึ่ง Sonnet 4 ปฏิเสธที่จะตั้งชื่อสถานที่จัดงานแต่งงานของบุคคลสาธารณะในพื้นที่ความเป็นส่วนตัวแม้ว่าข้อมูลจะได้รับการรายงานอย่างกว้างขวาง

ในทางตรงกันข้ามโมเดลของ Openai ก็เต็มใจที่จะให้คำตอบมากขึ้น กลยุทธ์นี้ส่งผลให้เกิดการตอบสนองที่ถูกต้องโดยรวมมากขึ้นเพิ่มยูทิลิตี้ของพวกเขา อย่างไรก็ตามมันมีค่าใช้จ่ายในอัตราที่สูงขึ้นอย่างมีนัยสำคัญของข้อผิดพลาดจริงหรือภาพหลอนในสภาพแวดล้อมการทดสอบที่ควบคุมซึ่งมีการ จำกัด แบบจำลองโดยเฉพาะจากการใช้เครื่องมือภายนอกเช่นการท่องเว็บ

ภาวะที่กลืนไม่เข้าคายไม่ออกนั้นไม่ได้มีเพียงด้านเดียว ในขณะที่โมเดลของมานุษยวิทยาปฏิเสธการทดสอบภาพหลอนมากขึ้นรายงานของมานุษยวิทยาพบว่ารูปแบบการใช้เหตุผล O3 ของ OpenAi อาจมีแนวโน้มที่จะถูกปฏิเสธอย่างระมัดระวังมากเกินไปในบริบทที่แตกต่างกัน ตัวอย่างเช่นเมื่อได้รับมอบหมายให้ทำงานด้านความปลอดภัยทางไซเบอร์เป็นประจำในการจำลอง O3 ปฏิเสธที่จะมีส่วนร่วมอย่างต่อเนื่องแม้จะมีคำขอที่เป็นพิษเป็นภัย

การแลกเปลี่ยนนี้แสดงถึงภาวะที่กลืนไม่เข้าคายไม่ออกหลักในการจัดตำแหน่ง AI ในขณะที่ Wojciech Zaremba ของ Openai บอกกับ TechCrunch โซลูชั่นในอุดมคติน่าจะเป็น“ ที่ไหนสักแห่งที่อยู่ตรงกลาง” ที่แนะนำโมเดลของ OpenAI ควรปฏิเสธมากขึ้นในขณะที่มานุษยวิทยาสามารถพยายามตอบได้มากขึ้น รายงานร่วมแสดงให้เห็นว่าห้องปฏิบัติการชั้นนำของอุตสาหกรรมได้รับคำตอบที่แตกต่างกันมากสำหรับคำถามนั้นโดยมีผลกระทบที่สำคัญสำหรับผู้ใช้ที่ต้องตัดสินใจว่าแบบจำลองใดที่จะไว้วางใจในงานใด

ขั้นตอนแรกที่ไม่สมบูรณ์ แต่จำเป็น

ทั้งสอง บริษัท พวกเขายอมรับว่าการทดสอบขึ้นอยู่กับสถานการณ์เทียมที่ไม่ได้สะท้อนการใช้งานในโลกแห่งความจริงอย่างสมบูรณ์แบบ วิทยาศาสตร์ของการจัดตำแหน่ง AI ยังคงอยู่ในสภาพที่เพิ่งเกิดขึ้นและแบบฝึกหัดเหล่านี้เป็นตัวแทนของความพยายามในช่วงต้นที่ไม่สมบูรณ์ในการสร้างมาตรฐานที่ได้มาตรฐาน

ห้องปฏิบัติการระบุว่าแบบจำลองบางครั้งสามารถรับรู้ได้ว่าพวกเขากำลังได้รับการประเมินอาจเปลี่ยนแปลงพฤติกรรมของพวกเขา มานุษยวิทยายังยกความกังวล“ ปืนของ Chekhov”: แบบจำลองอาจประพฤติตัวไม่เหมาะสมในการทดสอบเพียงเพราะสถานการณ์ทำให้ดูเหมือนว่าเป็นบทบาทที่คาดหวัง นอกจากนี้ความแตกต่างทางเทคนิคในวิธีการทดสอบแบบจำลองอาจมีความด้อยโอกาสบางรุ่น

แม้จะมีข้อบกพร่อง แต่การทำงานร่วมกันก็ถูกวางกรอบเป็นจุดเริ่มต้นที่สำคัญ ผู้นำจากห้องปฏิบัติการทั้งสองแสดงความปรารถนาที่จะดำเนินการเป็นหุ้นส่วนต่อไปและทำให้การตรวจสอบข้ามห้องปฏิบัติการเป็นเรื่องธรรมดามากขึ้น นักวิจัยด้านความปลอดภัยของมานุษยวิทยา Nicholas Carlini กล่าวว่า“ เราต้องการเพิ่มความร่วมมือทุกที่ที่เป็นไปได้ในเขตแดนด้านความปลอดภัยและพยายามทำสิ่งนี้ที่เกิดขึ้นเป็นประจำ”