มานุษยวิทยานำเสนอค่าใช้จ่ายที่หายากเกี่ยวกับค่าการปฏิบัติงานของผู้ช่วย AI Claude ผ่านการวิจัยใหม่ที่ตีพิมพ์เมื่อวันจันทร์ การศึกษา“ ค่านิยมในป่า” พยายามทำแผนที่เชิงประจักษ์การพิจารณาเชิงบรรทัดฐาน Claude เป็นการแสดงออกถึงการโต้ตอบของผู้ใช้จริงนับแสนในหลายแสนโดยใช้วิธีการที่มุ่งเน้นความเป็นส่วนตัว ค่า .
ความท้าทายหลักที่กล่าวถึงคือการทำความเข้าใจว่าผู้ช่วย AI ซึ่งกำหนดรูปแบบการตัดสินใจของผู้ใช้มากขึ้นจริง ๆ ใช้ค่าจริงในทางปฏิบัติ ในการตรวจสอบสิ่งนี้มานุษยวิทยาได้วิเคราะห์ตัวอย่างการสนทนาที่ไม่ระบุชื่อ 700,000 คนจาก Claude.AI ผู้ใช้ฟรีและผู้ใช้งานซึ่งรวบรวมได้มากกว่าหนึ่งสัปดาห์ (18-25 กุมภาพันธ์) ในเดือนกุมภาพันธ์ 2025 ชุดข้อมูลนี้มีปฏิสัมพันธ์ระหว่างการตีความ การวิเคราะห์ตามรายละเอียดใน การวิจัย preprint src=”https://winbuzzer.com/wp-content/uploads/2024/12/anthropic-ai-safety.jpg”>
การเปิดตัวบรรทัดฐานของ Claude อินสแตนซ์สกัดมานุษยวิทยาที่ Claude แสดงให้เห็นหรือกำหนดค่า clio ใช้การป้องกันหลายครั้ง เช่นการสอนแบบจำลองการตรวจสอบความคิดเห็นของผู้ใช้ ระบุค่า AI ที่แตกต่างกัน 3,307 ค่าและวิเคราะห์อินพุตของผู้ใช้ค่ามนุษย์ 2,483 ค่าที่ไม่ซ้ำกัน การตรวจสอบความถูกต้องของมนุษย์ยืนยันการสกัดค่า AI นั้นสอดคล้องกับการตัดสินของมนุษย์ (ข้อตกลง 98.8% ในกรณีตัวอย่าง)
มานุษยวิทยาจัดค่า AI ที่ระบุไว้ในลำดับชั้นสี่ระดับที่มีห้าหมวดหมู่หลัก: การปฏิบัติ การปฏิบัติ (ประสิทธิภาพคุณภาพ) และ epistemic (การตรวจสอบความรู้, ความสอดคล้องเชิงตรรกะ) มีการครอบงำมากกว่าครึ่งหนึ่งของอินสแตนซ์ที่สังเกตได้
มานุษยวิทยาเชื่อมต่อการค้นพบเหล่านี้กับเป้าหมายการออกแบบที่เป็นประโยชน์และไม่เป็นอันตราย) target=”_ blank”> รัฐธรรมนูญ ai เข้าใกล้และทำงานบน ตัวละครของ Claude ตามหลักการเหล่านี้ อย่างไรก็ตามการวิเคราะห์ไม่สะอาดทั้งหมด กลุ่มที่หายากของค่าที่ไม่พึงประสงค์เช่น”การปกครอง”และ”amorality”ก็ถูกตรวจพบซึ่งมานุษยวิทยาแนะนำอาจมีความสัมพันธ์กับความพยายามของผู้ใช้ในการเจลเบรคแบบจำลองซึ่งอาจนำเสนอสัญญาณใหม่สำหรับการตรวจจับการใช้ในทางที่ผิด ผู้ช่วย AI เน้นบรรทัดฐานที่แตกต่างกันขึ้นอยู่กับงาน-การส่งเสริม“ ขอบเขตที่ดีต่อสุขภาพ” ในระหว่างคำแนะนำความสัมพันธ์หรือ“ ความแม่นยำทางประวัติศาสตร์” เมื่อพูดถึงเหตุการณ์ทางประวัติศาสตร์ที่ถกเถียงกัน
พฤติกรรมที่ขึ้นกับบริบทนี้เน้นถึงการใช้คุณค่าของการใช้ค่า AI AI มีแนวโน้มที่จะตอบสนองอย่างมีประสิทธิภาพเสริมหรือทำงานภายในกรอบการทำงานของผู้ใช้ประมาณ 43% ของการโต้ตอบที่เกี่ยวข้อง
ค่ามิเรอร์ซึ่ง Claude สะท้อนถึงค่าที่ระบุไว้ของผู้ใช้ (เช่น”ความถูกต้อง”) href=”https://arxiv.org/abs/2310.13548″target=”_ blank”> ai sycophancy .
ในทางตรงกันข้ามค่าผู้ใช้”reframing”เกิดขึ้นบ่อยครั้ง (6.6%) การต่อต้านค่าใช้จ่ายของผู้ใช้ทันทีนั้นไม่บ่อยนัก (5.4%) แต่น่าสังเกตมักเกิดขึ้นเมื่อผู้ใช้ร้องขอเนื้อหาที่ผิดจรรยาบรรณหรือการกระทำที่ละเมิดนโยบายการใช้งานของมนุษย์
การวิจัยบ่งชี้ว่า Claude มีแนวโน้มที่จะระบุตัวตนของตัวเอง รูปภาพ
มานุษยวิทยาได้เปิดตัวอนุกรมวิธานค่าที่ได้รับและข้อมูลความถี่