แผนที่การศึกษามานุษยวิทยา Claude AI ค่านิยมในโลกแห่งความเป็นจริงเผยแพร่ชุดข้อมูล

มานุษยวิทยานำเสนอค่าใช้จ่ายที่หายากเกี่ยวกับค่าการปฏิบัติงานของผู้ช่วย AI Claude ผ่านการวิจัยใหม่ที่ตีพิมพ์เมื่อวันจันทร์ การศึกษา“ ค่านิยมในป่า” พยายามทำแผนที่เชิงประจักษ์การพิจารณาเชิงบรรทัดฐาน Claude เป็นการแสดงออกถึงการโต้ตอบของผู้ใช้จริงนับแสนในหลายแสนโดยใช้วิธีการที่มุ่งเน้นความเป็นส่วนตัว ค่า .

ความท้าทายหลักที่กล่าวถึงคือการทำความเข้าใจว่าผู้ช่วย AI ซึ่งกำหนดรูปแบบการตัดสินใจของผู้ใช้มากขึ้นจริง ๆ ใช้ค่าจริงในทางปฏิบัติ ในการตรวจสอบสิ่งนี้มานุษยวิทยาได้วิเคราะห์ตัวอย่างการสนทนาที่ไม่ระบุชื่อ 700,000 คนจาก Claude.AI ผู้ใช้ฟรีและผู้ใช้งานซึ่งรวบรวมได้มากกว่าหนึ่งสัปดาห์ (18-25 กุมภาพันธ์) ในเดือนกุมภาพันธ์ 2025 ชุดข้อมูลนี้มีปฏิสัมพันธ์ระหว่างการตีความ การวิเคราะห์ตามรายละเอียดใน การวิจัย preprint src=”https://winbuzzer.com/wp-content/uploads/2024/12/anthropic-ai-safety.jpg”>

การเปิดตัวบรรทัดฐานของ Claude อินสแตนซ์สกัดมานุษยวิทยาที่ Claude แสดงให้เห็นหรือกำหนดค่า clio ใช้การป้องกันหลายครั้ง เช่นการสอนแบบจำลองการตรวจสอบความคิดเห็นของผู้ใช้ ระบุค่า AI ที่แตกต่างกัน 3,307 ค่าและวิเคราะห์อินพุตของผู้ใช้ค่ามนุษย์ 2,483 ค่าที่ไม่ซ้ำกัน การตรวจสอบความถูกต้องของมนุษย์ยืนยันการสกัดค่า AI นั้นสอดคล้องกับการตัดสินของมนุษย์ (ข้อตกลง 98.8% ในกรณีตัวอย่าง)

มานุษยวิทยาจัดค่า AI ที่ระบุไว้ในลำดับชั้นสี่ระดับที่มีห้าหมวดหมู่หลัก: การปฏิบัติ การปฏิบัติ (ประสิทธิภาพคุณภาพ) และ epistemic (การตรวจสอบความรู้, ความสอดคล้องเชิงตรรกะ) มีการครอบงำมากกว่าครึ่งหนึ่งของอินสแตนซ์ที่สังเกตได้

มานุษยวิทยาเชื่อมต่อการค้นพบเหล่านี้กับเป้าหมายการออกแบบที่เป็นประโยชน์และไม่เป็นอันตราย) target=”_ blank”> รัฐธรรมนูญ ai เข้าใกล้และทำงานบน ตัวละครของ Claude ตามหลักการเหล่านี้ อย่างไรก็ตามการวิเคราะห์ไม่สะอาดทั้งหมด กลุ่มที่หายากของค่าที่ไม่พึงประสงค์เช่น”การปกครอง”และ”amorality”ก็ถูกตรวจพบซึ่งมานุษยวิทยาแนะนำอาจมีความสัมพันธ์กับความพยายามของผู้ใช้ในการเจลเบรคแบบจำลองซึ่งอาจนำเสนอสัญญาณใหม่สำหรับการตรวจจับการใช้ในทางที่ผิด ผู้ช่วย AI เน้นบรรทัดฐานที่แตกต่างกันขึ้นอยู่กับงาน-การส่งเสริม“ ขอบเขตที่ดีต่อสุขภาพ” ในระหว่างคำแนะนำความสัมพันธ์หรือ“ ความแม่นยำทางประวัติศาสตร์” เมื่อพูดถึงเหตุการณ์ทางประวัติศาสตร์ที่ถกเถียงกัน

พฤติกรรมที่ขึ้นกับบริบทนี้เน้นถึงการใช้คุณค่าของการใช้ค่า AI AI มีแนวโน้มที่จะตอบสนองอย่างมีประสิทธิภาพเสริมหรือทำงานภายในกรอบการทำงานของผู้ใช้ประมาณ 43% ของการโต้ตอบที่เกี่ยวข้อง

ค่ามิเรอร์ซึ่ง Claude สะท้อนถึงค่าที่ระบุไว้ของผู้ใช้ (เช่น”ความถูกต้อง”) href=”https://arxiv.org/abs/2310.13548″target=”_ blank”> ai sycophancy .

ในทางตรงกันข้ามค่าผู้ใช้”reframing”เกิดขึ้นบ่อยครั้ง (6.6%) การต่อต้านค่าใช้จ่ายของผู้ใช้ทันทีนั้นไม่บ่อยนัก (5.4%) แต่น่าสังเกตมักเกิดขึ้นเมื่อผู้ใช้ร้องขอเนื้อหาที่ผิดจรรยาบรรณหรือการกระทำที่ละเมิดนโยบายการใช้งานของมนุษย์

การวิจัยบ่งชี้ว่า Claude มีแนวโน้มที่จะระบุตัวตนของตัวเอง รูปภาพ

มานุษยวิทยาได้เปิดตัวอนุกรมวิธานค่าที่ได้รับและข้อมูลความถี่

แผนที่การศึกษามานุษยวิทยา Claude AI ค่านิยมในโลกแห่งความเป็นจริงเผยแพร่ชุดข้อมูล

Published by All Things Windows on April 21, 2025

IT Info

เพิ่มคำศัพท์ที่กำหนดเองในการเข้าถึงเสียงใน Windows 11

IT Info

การตรวจสอบความปลอดภัยกล่าวว่าแอพ Android ของ Perplexity นั้นไม่ปลอดภัยอ้างถึงข้อบกพร่องที่สำคัญ

IT Info

Meta ทวีความรุนแรงยิ่งขึ้นการตรวจสอบอายุของ Instagram ด้วยระบบ AI เชิงรุก

แผนที่การศึกษามานุษยวิทยา Claude AI ค่านิยมในโลกแห่งความเป็นจริงเผยแพร่ชุดข้อมูล

Published by All Things Windows on April 21, 2025

Related Posts

IT Info

เพิ่มคำศัพท์ที่กำหนดเองในการเข้าถึงเสียงใน Windows 11

IT Info

การตรวจสอบความปลอดภัยกล่าวว่าแอพ Android ของ Perplexity นั้นไม่ปลอดภัยอ้างถึงข้อบกพร่องที่สำคัญ

IT Info

Meta ทวีความรุนแรงยิ่งขึ้นการตรวจสอบอายุของ Instagram ด้วยระบบ AI เชิงรุก