Anthropic ได้เปิดตัว Claude Opus 4.5 แล้ววันนี้ โดยอ้างว่าเป็นคะแนนการเขียนโค้ดอันดับต้นๆ ของอุตสาหกรรม และนำเสนอการเปลี่ยนแปลงทางสถาปัตยกรรมที่สำคัญเพื่อลดค่าใช้จ่าย
ด้วยการลดราคาโทเค็นอินพุต 66% เหลือ 5 ดอลลาร์ต่อล้านโทเค็นอินพุต และใช้”Tool Search”เพื่อลดค่าใช้จ่ายด้านบริบทลง 85% บริษัทจึงโจมตีอุปสรรคทางเศรษฐกิจหลักโดยตรงไปยังตัวแทน AI ที่เป็นอิสระ
โมเดลดังกล่าวประสบความสำเร็จถึง 80.9% คะแนนบน SWE-bench Verified โดยจำกัดการเปิดตัวล่าสุดจาก Google และ OpenAI อย่างหวุดหวิด เพื่อทวงคืนประสิทธิภาพการทำงานสำหรับงานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน
The Benchmark Wars: Reclaiming the Crown
Opus 4.5 มาถึงด้วยคะแนน 80.9% ใน SWE-bench Verified ซึ่งเป็นมาตรฐานทองคำในปัจจุบันสำหรับการประเมินความสามารถทางวิศวกรรมซอฟต์แวร์อัตโนมัติ คะแนนที่เหนือกว่าคู่แข่ง โดยแซงหน้าการเปิดตัว Gemini 3 Pro ของ Google ที่ 76.2% และ GPT-5.1-Codex-Max ที่ 77.9%
การประเมินภายในแนะนำว่าขณะนี้โมเดลนี้ได้คะแนนสูงกว่าผู้สมัครที่เป็นมนุษย์ในการทดสอบนำกลับบ้านทางวิศวกรรมของ Anthropic เอง “Opus 4.5 เป็นก้าวไปข้างหน้าในสิ่งที่ระบบ AI สามารถทำได้ และการแสดงตัวอย่างการเปลี่ยนแปลงครั้งใหญ่เกี่ยวกับวิธีการทำงาน” บริษัทระบุในประกาศ
เพื่อสร้างสมดุลระหว่างต้นทุนกับความสามารถ พารามิเตอร์ “ความพยายาม” ใหม่ช่วยให้นักพัฒนาสามารถปรับความลึกของเหตุผลของโมเดลแบบไดนามิกในระหว่างการเรียก API ด้วยความพยายามในระดับ”ปานกลาง”Opus 4.5 ตรงกับประสิทธิภาพสูงสุดของ Sonnet 4.5 รุ่นก่อนหน้า แต่ใช้โทเค็นเอาต์พุตน้อยลง 76%
การก้าวข้ามขีดจำกัดของการแก้ปัญหาแบบอัตโนมัติ การตั้งค่าความพยายาม”สูง”เกินความสามารถของ Sonnet 4.5 ถึง 4.3 เปอร์เซ็นต์ เดือนพฤศจิกายนได้รับการพิสูจน์แล้วว่าเป็นเดือนที่มีการใช้งาน AI โดยห้องปฏิบัติการหลักทั้งสามแห่งได้ปรับใช้โมเดลการเข้ารหัสหลักของตนระหว่างวันที่ 18 ถึง 24
การเปลี่ยนแปลงทางเศรษฐกิจ: การกำหนดราคาและสถาปัตยกรรม
เพื่อจัดการกับความกังวลขององค์กรเกี่ยวกับความเป็นไปได้ของโมเดล”การให้เหตุผล”ที่มีราคาแพง Anthropic ได้ปรับราคาโมเดลอย่างจริงจังที่ 5 ดอลลาร์ต่อโทเค็นอินพุตหนึ่งล้าน และ 25 ดอลลาร์ต่อโทเค็นเอาต์พุตหนึ่งล้าน
เมื่อเทียบกับ Opus รุ่นก่อนหน้า ($15/$75) อัตราใหม่ให้ส่วนลด 66% ดังรายละเอียดใน แนะนำ Claude Opus 4.5
ภายใต้ประทุน สถาปัตยกรรมจัดการกับปัญหา”Context Bloat”โดยทั่วไปแล้ว การโหลดคำจำกัดความของเครื่องมือมากกว่า 50 รายการอาจใช้โทเค็นประมาณ 55,000 โทเค็นก่อนที่จะประมวลผลคำค้นหาของผู้ใช้รายเดียว
ตามเอกสารประกอบ การใช้เครื่องมือขั้นสูง ระบบใหม่จะเปลี่ยนไดนามิกนี้โดยพื้นฐาน:
“แทนที่จะโหลดคำจำกัดความของเครื่องมือทั้งหมดล่วงหน้า เครื่องมือค้นหาเครื่องมือ ค้นพบเครื่องมือตามความต้องการ Claude เห็นเฉพาะเครื่องมือที่จำเป็นสำหรับงานปัจจุบันเท่านั้น”
“สิ่งนี้แสดงถึงการลดการใช้โทเค็นลง 85% ในขณะที่ยังคงรักษาการเข้าถึงไลบรารีเครื่องมือทั้งหมดของคุณ การทดสอบภายในแสดงให้เห็นการปรับปรุงความแม่นยำอย่างมากในการประเมิน MCP เมื่อทำงานกับไลบรารีเครื่องมือขนาดใหญ่”
การเสริมสิ่งนี้คือ”การเรียกเครื่องมือแบบโปรแกรม”(PTC) ซึ่งช่วยให้โมเดลเขียนโค้ดการเรียบเรียงแทนที่จะอาศัยการแชท การผลัดเปลี่ยน
เอกสารทางเทคนิคอธิบายเพิ่มเติมเกี่ยวกับกลไกของ PTC:
“แทนที่จะให้ Claude ร้องขอเครื่องมือทีละครั้งโดยผลลัพธ์แต่ละรายการจะถูกส่งกลับไปยังบริบท Claude เขียนโค้ดที่เรียกใช้เครื่องมือหลายตัว ประมวลผลเอาท์พุต และควบคุมว่าข้อมูลใดเข้าสู่หน้าต่างบริบทจริง ๆ”
“Claude เก่งในการเขียนโค้ดและโดยการปล่อยให้มันแสดงตรรกะการเรียบเรียงใน Python แทนที่จะผ่านการเรียกใช้เครื่องมือภาษาธรรมชาติ คุณ รับโฟลว์การควบคุมที่เชื่อถือได้และแม่นยำยิ่งขึ้น”
PTC ขจัดความจำเป็นในการใช้ขั้นตอนการอนุมานแบบไปกลับสำหรับการเรียกใช้เครื่องมือแต่ละครั้ง ซึ่งช่วยลดเวลาแฝงได้อย่างมาก การประมวลผลชุดข้อมูลขนาดใหญ่ เช่น ข้อมูลค่าใช้จ่ายดิบจำนวน 200KB จะสามารถทำงานได้เมื่อแบบจำลองส่งคืนผลลัพธ์สุดท้ายขนาด 1KB ไปยังหน้าต่างบริบทเท่านั้น
“ในการสร้างตัวแทนที่มีประสิทธิภาพ พวกเขาจำเป็นต้องทำงานกับไลบรารีเครื่องมือที่ไม่จำกัด โดยไม่ต้องบรรจุทุกคำจำกัดความไว้ในบริบทล่วงหน้า” ทีมวิศวกรรม Anthropic กล่าว
การขยายระบบนิเวศ: Chrome, Excel และความปลอดภัย
เหนือกว่าแกนหลัก โมเดล “Claude Code” ได้เลื่อนระดับจากเบต้าไปสู่ความพร้อมใช้งานทั่วไป โดยนำเสนอแอปพลิเคชันเดสก์ท็อปเต็มรูปแบบสำหรับเวิร์กโฟลว์ของนักพัฒนา การบูรณาการใหม่ช่วยให้โมเดลสามารถควบคุมเบราว์เซอร์ Chrome ได้โดยตรง ก้าวไปไกลกว่าการสร้างข้อความไปสู่การวิจัยเชิงรุกและการดำเนินงาน
[เนื้อหาที่ฝังไว้]
การกำหนดเป้าหมายการสร้างแบบจำลองทางการเงิน การผสานรวม Excel เฉพาะช่วยให้แบบจำลองสามารถจัดการสเปรดชีตที่มีแถวหลายพันแถว
Dianne Na Penn หัวหน้าฝ่ายการจัดการผลิตภัณฑ์เพื่อการวิจัยของ Anthropic เน้นย้ำถึงความสำคัญของความสามารถนี้:”การรู้รายละเอียดที่ถูกต้องที่ควรจดจำเป็นสิ่งสำคัญอย่างยิ่งในการเสริมการมีกรอบเวลาบริบทที่ยาวขึ้น”
[เนื้อหาที่ฝัง]
ความปลอดภัยยังคงเป็นเสาหลักสำคัญของการเปิดตัว การ์ดระบบ Claude Opus 4.5 เน้นการลงทุนที่สำคัญในการลดความเสี่ยงทางเคมี ชีวภาพ รังสีวิทยา และนิวเคลียร์ (CBRN)
การ์ดระบบแสดงสถานะการวางแนวของโมเดลอย่างชัดเจน:
“Opus 4.5 เป็นโมเดลที่มีความสอดคล้องที่แข็งแกร่งที่สุดที่เรา และเราสงสัยว่าโมเดล Frontier ใด ๆ จะสอดคล้องได้ดีที่สุด”
“Opus 4.5 นั้นยากต่อการหลอกลวงด้วยการฉีดทันทีมากกว่าโมเดล Frontier อื่นๆ ในอุตสาหกรรม”
ความเป็นจริงของตลาด: ยุคตัวแทน
ตามบริบทของการเปิดตัว”November AI Rush”ได้เห็น Google, OpenAI และ Anthropic ล้วนมุ่งไปสู่ตัวแทนอัตโนมัติพร้อมกัน เรื่องราวต่างๆ ได้เปลี่ยนจาก”แชทบอท”เป็น”ตัวแทน”ที่สามารถทำงานต่อเนื่องได้นานกว่า 24 ชั่วโมง
ในขณะที่ Anthropic เป็นผู้นำในเกณฑ์มาตรฐานดิบ (80.9%) อัตรากำไรก็น้อยมาก โดยมีคะแนนน้อยกว่า 5 เปอร์เซ็นต์ที่แยกคู่แข่งสามอันดับแรก ข้อเสียเปรียบที่สำคัญมีอยู่ในสถาปัตยกรรมใหม่:”การค้นหาเครื่องมือ”แนะนำขั้นตอนการค้นหาที่อาจเพิ่มเวลาแฝงเมื่อเปรียบเทียบกับการมีเครื่องมือทั้งหมดโหลดไว้ล่วงหน้าในบริบท
ไม่เหมือนกับการเพิ่มประสิทธิภาพ Windows-native ของ OpenAI ด้วย Codex-Max ตรงที่ Anthropic กำลังเดิมพันกับแนวทางเดสก์ท็อปที่ไม่เชื่อเรื่องพระเจ้าบนแพลตฟอร์ม การจัดการหน่วยความจำกลายเป็นสมรภูมิใหม่ โดย OpenAI ใช้”การบีบอัด”และ Anthropic ใช้”การค้นหาเครื่องมือ”เพื่อแก้ปัญหาคอขวดของหน้าต่างบริบทเดียวกัน