มานุษยวิทยาได้เปิดตัว AI เรือธงใหม่อย่างเป็นทางการ Claude Opus 4.1 การอัพเกรดที่เพิ่มขึ้นซึ่งออกแบบมาเพื่อเพิ่มการเข้ารหัสและประสิทธิภาพการใช้เหตุผล เปิดตัวเมื่อวันที่ 5 สิงหาคมรุ่นนี้มีให้สำหรับผู้ใช้และนักพัฒนาที่ได้รับค่าจ้างผ่าน API ของมานุษยวิทยา API, Amazon Bedrock และ Vertex Ai ของ Google
การเปิดตัวดังต่อไปนี้การรั่วไหลของ บริษัท ใหม่และการผลักดันความปลอดภัยของ AI ทั่วทั้ง บริษัท ใน การ์ดระบบ , มานุษยวิทยาการอัปเดตเป็นขั้นตอนโดยเจตนาและวัดไปข้างหน้า มันช่วยเพิ่มความสามารถโดยไม่ข้ามเกณฑ์“ ที่มีความสามารถมากขึ้น” ซึ่งจะกระตุ้นการตรวจสอบความปลอดภัยใหม่อย่างเต็มรูปแบบ
กลยุทธ์นี้เน้นย้ำความพยายามในการสร้างสมดุลระหว่างนวัตกรรมด้วยการปรับใช้อย่างรับผิดชอบ การกำหนดราคายังคงอยู่ เหมือนกับรุ่นก่อน ส่งสัญญาณการทดแทนโดยตรงสำหรับ Claude Opus 4 และย้ายไปสู่ความมั่นคงของตลาด src=”data: image/svg+xml; nitro-empty-id=mtyzntoxmzaz-1; base64, phn2zyb2AwV3QM94PSIWIDAGMTI4MCA3MJ aiihdpzhropsixmjgwiibozwlnahq9ijcymcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> >>>
การกระโดดที่วัดได้ในการเข้ารหัสและการให้เหตุผล
คุณสมบัติหัวข้อของ Claude Opus 4.1 คือประสิทธิภาพที่เพิ่มขึ้นอย่างมีนัยสำคัญในงานที่ซับซ้อนและมีมูลค่าสูง การประกาศของ Anthropic ทันทีแตรที่มีคะแนน state-of-art ใหม่ 74.5% ใน
การตรวจสอบก่อนกำหนด ตามการประกาศ GitHub สังเกตว่า“ ผลการดำเนินงานที่โดดเด่นโดยเฉพาะอย่างยิ่งในการปรับโครงสร้างรหัสหลายไฟล์ Rakuten Group ยกย่องความแม่นยำของโมเดลโดยสังเกตว่ามัน“ เก่งในการระบุการแก้ไขที่แน่นอนภายในรหัสฐานขนาดใหญ่โดยไม่ต้องทำการปรับเปลี่ยนที่ไม่จำเป็นหรือแนะนำข้อบกพร่อง” ในขณะเดียวกัน Windsurf บริษัท รายงานว่า Opus 4.1 ส่งมอบการปรับปรุงค่าเบี่ยงเบนมาตรฐานเต็มรูปแบบผ่านรุ่นก่อนในเกณฑ์มาตรฐานนักพัฒนารุ่นจูเนียร์ของพวกเขาการกระโดดที่สำคัญและเชิงปริมาณในความสามารถ
อย่างไรก็ตามการมองลึกลงไปในโมเดล
จุดข้อมูลที่บอกได้มากที่สุดที่สนับสนุนกลยุทธ์“ การปรับแต่งเป้าหมาย” มาจากการใช้งาน Tau-bench สำหรับการใช้เครื่องมือตัวแทน ในขณะที่ Opus 4.1 ปรับปรุงงาน”ค้าปลีก”ประสิทธิภาพการทำงานของงาน”สายการบิน”จริง ๆ แล้วลดลงถึง 56.0%ไม่เพียง แต่จะตกอยู่ข้างหลังไม่เพียง แต่บรรพบุรุษโดยตรง Opus 4 (59.6%) แต่ยังมี Claude Sonnet 4 (60.0%) ผลลัพธ์ที่หลากหลายนี้แสดงให้เห็นอย่างชัดเจนว่ามานุษยวิทยาได้จัดลำดับความสำคัญและปรับให้เหมาะสมสำหรับความสามารถเฉพาะการยอมรับการแลกเปลี่ยนในผู้อื่นเพื่อผลักดันชายแดนซึ่งเชื่อว่ามันสำคัญที่สุด
antropics มุ่งเน้นไปที่ทักษะการปฏิบัติที่มีมูลค่าสูงสะท้อนให้เห็นถึงแนวโน้มอุตสาหกรรมที่กว้างขึ้นและวิวัฒนาการเชิงกลยุทธ์ของ บริษัท ในขณะที่นักวิเคราะห์ Holger Mueller จาก Constellation Research ระบุเกี่ยวกับการเคลื่อนไหวก่อนหน้านี้ของ บริษัท “ ผู้ขาย LLM กำลังทำงานสแต็กลงในชั้น PaaS มานุษยวิทยาเป็นตัวอย่างที่ดีของการเคลื่อนไหวครั้งนี้ด้วยการเปิดตัวล่าสุด” วิวัฒนาการนี้จากผู้ให้บริการโมเดลดิบไปยังแพลตฟอร์มในฐานะผู้ขายบริการ (PAAS) โดยมีวัตถุประสงค์เพื่อสร้างระบบนิเวศนักพัฒนาที่เหนียวเหนอะหนะเป็นสิ่งสำคัญสำหรับการเติบโตในระยะยาวและให้บริบทเชิงกลยุทธ์สำหรับการเพิ่มประสิทธิภาพเป้าหมายเหล่านี้
การประกอบ ภาคผนวกการ์ดระบบ เป็นศูนย์กลางของการบรรยายนี้ เป็นการยืนยันว่าโมเดลถูกปรับใช้ภายใต้มาตรฐานความปลอดภัย ASL-3 ที่มีอยู่เดิมที่มีอยู่ก่อนที่จะใช้กับ Claude 4.
เอกสารชี้แจงว่าเนื่องจากการอัปเดตเพิ่มขึ้นจึงไม่จำเป็นต้องมีการตรวจสอบความปลอดภัยใหม่ภายใต้นโยบายการปรับขนาดที่รับผิดชอบของ บริษัท (RSP) นโยบายของมานุษยวิทยาระบุว่า“ หากโมเดลใหม่หรือที่มีอยู่ต่ำกว่ามาตรฐาน’ที่มีความสามารถมากขึ้น’ไม่จำเป็นต้องมีการทดสอบเพิ่มเติม”ประโยคที่ช่วยให้การปรับปรุงที่เร็วขึ้นและซ้ำ ๆ
วิธีการนี้ตรงกันข้ามกับประวัติศาสตร์ของอุตสาหกรรม มานุษยวิทยากำลังพยายามแสดงเส้นทางที่ยั่งยืนมากขึ้น
การค้นพบของการ์ดระบบนำเสนอภาพที่เหมาะสมที่สุด ในขณะที่ความร่วมมือกับ“ การใช้ในทางที่ผิดของมนุษย์อย่างมหันต์” ลดลงประมาณ 25%โมเดลแสดงให้เห็นว่าการถดถอยเล็กน้อยในงานแฮ็ครางวัล ซึ่งหมายความว่าอาจมีแนวโน้มที่จะหาวิธีแก้ปัญหาที่ฉลาดมากกว่าการแก้ปัญหาตรรกะหลักของปัญหา
ในงานการเข้ารหัส”เป็นไปไม่ได้”ตัวอย่างเช่นแนวโน้มของ Opus 4.1 ที่จะ”แฮ็ค”โซลูชัน 52%เพิ่มขึ้นเล็กน้อยจาก 51%ของ OPUS 4 สิ่งนี้เน้นให้เห็นถึงความท้าทายอย่างต่อเนื่องในห้องปฏิบัติการเพื่อให้มั่นใจว่านางแบบยึดติดกับวิญญาณไม่ใช่แค่จดหมายของคำแนะนำของผู้ใช้
จากการโต้เถียงไปสู่ความต่อเนื่อง: การแทนที่ผู้ที่มีอำนาจก่อนหน้า
การเปิดตัว บรรพบุรุษในเดือนพฤษภาคม 2568 ซึ่งถูกทำลายโดยการค้นพบความสามารถที่เกิดขึ้น“ เบาะแส” ที่เกิดขึ้นใหม่
คุณลักษณะนั้นซึ่ง AI อาจใช้“ การกระทำที่กล้าหาญมาก” ถ้ามันรับรู้การกระทำผิด ในเวลานั้นมานุษยวิทยาชี้แจงพฤติกรรมที่เห็นได้จากการทดสอบที่มีการควบคุมสูงเท่านั้นและไม่ได้อยู่ในการใช้งานปกติ
พร้อมกัน บริษัท ได้วาง Opus 4 ภายใต้โปรโตคอลความปลอดภัย ASL-3 ที่เข้มงวดที่สุดเนื่องจากการตรวจทางชีวภาพที่ระบุ นักวิทยาศาสตร์หัวหน้าของมานุษยวิทยา Jared Kaplan,
การเปิดตัวของรุ่นใหม่จับคู่กับกรอบความปลอดภัยใหม่ของมานุษยวิทยาสำหรับตัวแทน AI ดูเหมือนว่าออกแบบมาเพื่อสร้างความมั่นคง เป็นการเคลื่อนไหวที่ทันเวลาในตลาดที่สั่นคลอนโดยความล้มเหลวของ AI เมื่อเร็ว ๆ นี้เช่น