Anthropic ได้เปิดตัว Claude Opus 4.5 แล้ววันนี้ โดยอ้างว่าเป็นคะแนนการเขียนโค้ดอันดับต้นๆ ของอุตสาหกรรม และนำเสนอการเปลี่ยนแปลงทางสถาปัตยกรรมที่สำคัญเพื่อลดค่าใช้จ่าย

ด้วยการลดราคาโทเค็นอินพุต 66% เหลือ 5 ดอลลาร์ต่อล้านโทเค็นอินพุต และใช้”Tool Search”เพื่อลดค่าใช้จ่ายด้านบริบทลง 85% บริษัทจึงโจมตีอุปสรรคทางเศรษฐกิจหลักโดยตรงไปยังตัวแทน AI ที่เป็นอิสระ

โมเดลดังกล่าวประสบความสำเร็จถึง 80.9% คะแนนบน SWE-bench Verified โดยจำกัดการเปิดตัวล่าสุดจาก Google และ OpenAI อย่างหวุดหวิด เพื่อทวงคืนประสิทธิภาพการทำงานสำหรับงานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน

The Benchmark Wars: Reclaiming the Crown

Opus 4.5 มาถึงด้วยคะแนน 80.9% ใน SWE-bench Verified ซึ่งเป็นมาตรฐานทองคำในปัจจุบันสำหรับการประเมินความสามารถทางวิศวกรรมซอฟต์แวร์อัตโนมัติ คะแนนที่เหนือกว่าคู่แข่ง โดยแซงหน้าการเปิดตัว Gemini 3 Pro ของ Google ที่ 76.2% และ GPT-5.1-Codex-Max ที่ 77.9%

การประเมินภายในแนะนำว่าขณะนี้โมเดลนี้ได้คะแนนสูงกว่าผู้สมัครที่เป็นมนุษย์ในการทดสอบนำกลับบ้านทางวิศวกรรมของ Anthropic เอง “Opus 4.5 เป็นก้าวไปข้างหน้าในสิ่งที่ระบบ AI สามารถทำได้ และการแสดงตัวอย่างการเปลี่ยนแปลงครั้งใหญ่เกี่ยวกับวิธีการทำงาน” บริษัทระบุในประกาศ

เพื่อสร้างสมดุลระหว่างต้นทุนกับความสามารถ พารามิเตอร์ “ความพยายาม” ใหม่ช่วยให้นักพัฒนาสามารถปรับความลึกของเหตุผลของโมเดลแบบไดนามิกในระหว่างการเรียก API ด้วยความพยายามในระดับ”ปานกลาง”Opus 4.5 ตรงกับประสิทธิภาพสูงสุดของ Sonnet 4.5 รุ่นก่อนหน้า แต่ใช้โทเค็นเอาต์พุตน้อยลง 76%

การก้าวข้ามขีดจำกัดของการแก้ปัญหาแบบอัตโนมัติ การตั้งค่าความพยายาม”สูง”เกินความสามารถของ Sonnet 4.5 ถึง 4.3 เปอร์เซ็นต์ เดือนพฤศจิกายนได้รับการพิสูจน์แล้วว่าเป็นเดือนที่มีการใช้งาน AI โดยห้องปฏิบัติการหลักทั้งสามแห่งได้ปรับใช้โมเดลการเข้ารหัสหลักของตนระหว่างวันที่ 18 ถึง 24

การเปลี่ยนแปลงทางเศรษฐกิจ: การกำหนดราคาและสถาปัตยกรรม

เพื่อจัดการกับความกังวลขององค์กรเกี่ยวกับความเป็นไปได้ของโมเดล”การให้เหตุผล”ที่มีราคาแพง Anthropic ได้ปรับราคาโมเดลอย่างจริงจังที่ 5 ดอลลาร์ต่อโทเค็นอินพุตหนึ่งล้าน และ 25 ดอลลาร์ต่อโทเค็นเอาต์พุตหนึ่งล้าน

เมื่อเทียบกับ Opus รุ่นก่อนหน้า ($15/$75) อัตราใหม่ให้ส่วนลด 66% ดังรายละเอียดใน แนะนำ Claude Opus 4.5

ภายใต้ประทุน สถาปัตยกรรมจัดการกับปัญหา”Context Bloat”โดยทั่วไปแล้ว การโหลดคำจำกัดความของเครื่องมือมากกว่า 50 รายการอาจใช้โทเค็นประมาณ 55,000 โทเค็นก่อนที่จะประมวลผลคำค้นหาของผู้ใช้รายเดียว

ตามเอกสารประกอบ การใช้เครื่องมือขั้นสูง ระบบใหม่จะเปลี่ยนไดนามิกนี้โดยพื้นฐาน:

“แทนที่จะโหลดคำจำกัดความของเครื่องมือทั้งหมดล่วงหน้า เครื่องมือค้นหาเครื่องมือ ค้นพบเครื่องมือตามความต้องการ Claude เห็นเฉพาะเครื่องมือที่จำเป็นสำหรับงานปัจจุบันเท่านั้น”

“สิ่งนี้แสดงถึงการลดการใช้โทเค็นลง 85% ในขณะที่ยังคงรักษาการเข้าถึงไลบรารีเครื่องมือทั้งหมดของคุณ การทดสอบภายในแสดงให้เห็นการปรับปรุงความแม่นยำอย่างมากในการประเมิน MCP เมื่อทำงานกับไลบรารีเครื่องมือขนาดใหญ่”

การเสริมสิ่งนี้คือ”การเรียกเครื่องมือแบบโปรแกรม”(PTC) ซึ่งช่วยให้โมเดลเขียนโค้ดการเรียบเรียงแทนที่จะอาศัยการแชท การผลัดเปลี่ยน

เอกสารทางเทคนิคอธิบายเพิ่มเติมเกี่ยวกับกลไกของ PTC:

“แทนที่จะให้ Claude ร้องขอเครื่องมือทีละครั้งโดยผลลัพธ์แต่ละรายการจะถูกส่งกลับไปยังบริบท Claude เขียนโค้ดที่เรียกใช้เครื่องมือหลายตัว ประมวลผลเอาท์พุต และควบคุมว่าข้อมูลใดเข้าสู่หน้าต่างบริบทจริง ๆ”

“Claude เก่งในการเขียนโค้ดและโดยการปล่อยให้มันแสดงตรรกะการเรียบเรียงใน Python แทนที่จะผ่านการเรียกใช้เครื่องมือภาษาธรรมชาติ คุณ รับโฟลว์การควบคุมที่เชื่อถือได้และแม่นยำยิ่งขึ้น”

PTC ขจัดความจำเป็นในการใช้ขั้นตอนการอนุมานแบบไปกลับสำหรับการเรียกใช้เครื่องมือแต่ละครั้ง ซึ่งช่วยลดเวลาแฝงได้อย่างมาก การประมวลผลชุดข้อมูลขนาดใหญ่ เช่น ข้อมูลค่าใช้จ่ายดิบจำนวน 200KB จะสามารถทำงานได้เมื่อแบบจำลองส่งคืนผลลัพธ์สุดท้ายขนาด 1KB ไปยังหน้าต่างบริบทเท่านั้น

“ในการสร้างตัวแทนที่มีประสิทธิภาพ พวกเขาจำเป็นต้องทำงานกับไลบรารีเครื่องมือที่ไม่จำกัด โดยไม่ต้องบรรจุทุกคำจำกัดความไว้ในบริบทล่วงหน้า” ทีมวิศวกรรม Anthropic กล่าว

การขยายระบบนิเวศ: Chrome, Excel และความปลอดภัย

เหนือกว่าแกนหลัก โมเดล “Claude Code” ได้เลื่อนระดับจากเบต้าไปสู่ความพร้อมใช้งานทั่วไป โดยนำเสนอแอปพลิเคชันเดสก์ท็อปเต็มรูปแบบสำหรับเวิร์กโฟลว์ของนักพัฒนา การบูรณาการใหม่ช่วยให้โมเดลสามารถควบคุมเบราว์เซอร์ Chrome ได้โดยตรง ก้าวไปไกลกว่าการสร้างข้อความไปสู่การวิจัยเชิงรุกและการดำเนินงาน

[เนื้อหาที่ฝังไว้]

การกำหนดเป้าหมายการสร้างแบบจำลองทางการเงิน การผสานรวม Excel เฉพาะช่วยให้แบบจำลองสามารถจัดการสเปรดชีตที่มีแถวหลายพันแถว 

Dianne Na Penn หัวหน้าฝ่ายการจัดการผลิตภัณฑ์เพื่อการวิจัยของ Anthropic เน้นย้ำถึงความสำคัญของความสามารถนี้:”การรู้รายละเอียดที่ถูกต้องที่ควรจดจำเป็นสิ่งสำคัญอย่างยิ่งในการเสริมการมีกรอบเวลาบริบทที่ยาวขึ้น”

[เนื้อหาที่ฝัง]

ความปลอดภัยยังคงเป็นเสาหลักสำคัญของการเปิดตัว การ์ดระบบ Claude Opus 4.5 เน้นการลงทุนที่สำคัญในการลดความเสี่ยงทางเคมี ชีวภาพ รังสีวิทยา และนิวเคลียร์ (CBRN)

การ์ดระบบแสดงสถานะการวางแนวของโมเดลอย่างชัดเจน:

“Opus 4.5 เป็นโมเดลที่มีความสอดคล้องที่แข็งแกร่งที่สุดที่เรา และเราสงสัยว่าโมเดล Frontier ใด ๆ จะสอดคล้องได้ดีที่สุด”

“Opus 4.5 นั้นยากต่อการหลอกลวงด้วยการฉีดทันทีมากกว่าโมเดล Frontier อื่นๆ ในอุตสาหกรรม”

ความเป็นจริงของตลาด: ยุคตัวแทน

ตามบริบทของการเปิดตัว”November AI Rush”ได้เห็น Google, OpenAI และ Anthropic ล้วนมุ่งไปสู่ตัวแทนอัตโนมัติพร้อมกัน เรื่องราวต่างๆ ได้เปลี่ยนจาก”แชทบอท”เป็น”ตัวแทน”ที่สามารถทำงานต่อเนื่องได้นานกว่า 24 ชั่วโมง

ในขณะที่ Anthropic เป็นผู้นำในเกณฑ์มาตรฐานดิบ (80.9%) อัตรากำไรก็น้อยมาก โดยมีคะแนนน้อยกว่า 5 เปอร์เซ็นต์ที่แยกคู่แข่งสามอันดับแรก ข้อเสียเปรียบที่สำคัญมีอยู่ในสถาปัตยกรรมใหม่:”การค้นหาเครื่องมือ”แนะนำขั้นตอนการค้นหาที่อาจเพิ่มเวลาแฝงเมื่อเปรียบเทียบกับการมีเครื่องมือทั้งหมดโหลดไว้ล่วงหน้าในบริบท

ไม่เหมือนกับการเพิ่มประสิทธิภาพ Windows-native ของ OpenAI ด้วย Codex-Max ตรงที่ Anthropic กำลังเดิมพันกับแนวทางเดสก์ท็อปที่ไม่เชื่อเรื่องพระเจ้าบนแพลตฟอร์ม การจัดการหน่วยความจำกลายเป็นสมรภูมิใหม่ โดย OpenAI ใช้”การบีบอัด”และ Anthropic ใช้”การค้นหาเครื่องมือ”เพื่อแก้ปัญหาคอขวดของหน้าต่างบริบทเดียวกัน

Categories: IT Info