บริษัท AI ของจีน Moonshot AI มีโมเดลโอเพ่นซอร์สใหม่ที่เรียกว่า Kimi K2 Thinking เปิดตัวเมื่อวันที่ 6 พฤศจิกายนจากฐานในกรุงปักกิ่ง ถือเป็นก้าวสำคัญในการแข่งขันระดับโลกในการสร้าง AI ที่สามารถดำเนินการได้ด้วยตัวเอง

โมเดลนี้คือ”ตัวแทนการคิด”สามารถแก้ไขปัญหายาก ๆ ได้โดยใช้เครื่องมือดิจิทัลมากกว่าร้อยขั้นตอน Moonshot ต้องการเอาชนะคู่แข่งในตลาด AI ที่แข็งแกร่งของจีน

หลังจากรุ่น Kimi K2 และ Kimi K2 Turbo ที่มีพารามิเตอร์ล้านล้านพารามิเตอร์ เวอร์ชันใหม่นี้มุ่งเน้นไปที่การให้เหตุผลระดับสูงและได้คะแนนสูงสุดจากการทดสอบในอุตสาหกรรม

“ตัวแทนการคิด”ที่สร้างขึ้นเพื่อการให้เหตุผลที่ซับซ้อนและการใช้เครื่องมือ

จากสำนักงานใหญ่ในปักกิ่ง Moonshot AI กำลังมีบทบาทเชิงรุกอีกครั้งในภาคส่วน AI

บริษัทได้วางตำแหน่ง Kimi K2 Thinking ไม่ใช่แค่เป็นการอัปเกรด แต่ยังเป็นคลาสของโมเดลใหม่ที่มุ่งเน้นไปที่การดำเนินการแบบอัตโนมัติ โดยได้รับการออกแบบให้เป็น “ผู้คิด” ที่สามารถให้เหตุผลทีละขั้นตอนเพื่อแก้ไขปัญหาที่ซับซ้อนได้

ความสามารถหลักที่บริษัทเน้นย้ำคือความสามารถในการดำเนินการเรียกใช้เครื่องมือตามลำดับระหว่าง 200 ถึง 300 ครั้ง ทำให้สามารถทำงานที่ซับซ้อนและหลายขั้นตอนได้โดยไม่ต้องมีการแทรกแซงของมนุษย์

ไม่เหมือนกับ Kimi K2 Turbo รุ่นก่อนซึ่งมุ่งเน้นไปที่ความเร็วดิบ รีลีสใหม่นี้จัดลำดับความสำคัญของความลึกในการรับรู้ สถาปัตยกรรมพื้นฐานยังคงเป็นโมเดล Mixture-of-Experts (MoE) ขนาดใหญ่ที่มีพารามิเตอร์ 1 ล้านล้านพารามิเตอร์ โดยเปิดใช้งานพารามิเตอร์ 32 พันล้านพารามิเตอร์สำหรับโทเค็นใดๆ ที่กำหนด

ตามการ์ดโมเดลอย่างเป็นทางการ การ์ดดังกล่าวมีความยาวบริบทที่ขยาย 256K หน้าต่างขนาดใหญ่นี้ช่วยให้สามารถประมวลผลและวิเคราะห์โค้ดเบสทั้งหมดหรือเอกสารหลายร้อยหน้าได้ในครั้งเดียว ซึ่งเป็นคุณสมบัติที่สำคัญสำหรับงานระดับองค์กรที่ซับซ้อน

นวัตกรรมทางเทคนิคที่สำคัญคือการวัดปริมาณ INT4 แบบเนทีฟ ซึ่งทำได้สำเร็จผ่านวิธีการที่เรียกว่า Quantization-Aware Training (QAT) ซึ่งช่วยให้โมเดลทำงานด้วยการคำนวณที่มีความแม่นยำน้อยลง โดยเพิ่มความเร็วในการอนุมานได้อย่างมีประสิทธิภาพเป็นสองเท่า ขณะเดียวกันก็รักษาประสิทธิภาพของโมเดลที่มีความแม่นยำสูงกว่า

สำหรับนักพัฒนา การดำเนินการนี้ทำให้การปรับใช้โมเดลล้านล้านพารามิเตอร์มีความเป็นไปได้ในการคำนวณและคุ้มต้นทุนมากขึ้น ช่วยลดอุปสรรคสำคัญในการนำไปใช้

Moonshot รายงานว่า Kimi K2 Thinking ได้คะแนน 44.9 ในการทดสอบครั้งสุดท้ายของ Humanity (พร้อมเครื่องมือ) ซึ่งเป็นการทดสอบระดับผู้เชี่ยวชาญ ความรู้ ในการค้นหาแบบเอเจนต์และการเรียกดูเช่น BrowserComp ได้คะแนน 60.2 และในการทดสอบการเข้ารหัสเอเจนต์ SWE-Bench Verified ได้คะแนนถึง 71.3 (ดูตารางการวัดประสิทธิภาพแบบเต็มในตอนท้าย)

ผลลัพธ์เหล่านี้ทำให้โมเดลโอเพ่นซอร์สอยู่แถวหน้าซึ่งออกแบบมาเพื่อความสามารถด้านเอเจนต์

กลเม็ดเชิงกลยุทธ์ในสงคราม AI ที่ดุเดือดของจีน

การเปิดตัว Kimi K2 Thinking เป็นการเคลื่อนไหวที่คำนวณแล้วในตลาด AI ที่มีการแข่งขันสูงของจีน ซึ่งมักเรียกกันว่า”สงครามแห่งแบบจำลองร้อยแบบ”

Moonshot AI ซึ่งครั้งหนึ่งเคยเป็นดาวรุ่ง ต้องเผชิญกับแรงกดดันอย่างรุนแรงจากคู่แข่งในประเทศ เช่น DeepSeek, Z.ai และ Alibaba โมเดลใหม่นี้เป็นความพยายามโดยตรงในการเรียกคืนความเป็นผู้นำโดยการเปลี่ยนจุดเน้นในการแข่งขันจากความเร็วและราคาไปสู่การใช้เหตุผลที่ซับซ้อนและประสิทธิภาพเชิงตัวแทน

จุดสำคัญนี้เกิดขึ้นหลังจากช่วงเวลาที่ท้าทายของบริษัท Kimi K2 รุ่นดั้งเดิมซึ่งเปิดตัวในเดือนกรกฎาคมเป็นเกมโอเพ่นซอร์สที่โดดเด่น

อย่างไรก็ตาม ตลาดเริ่มอิ่มตัวอย่างรวดเร็วด้วยทางเลือกที่มีต้นทุนต่ำ โดยเฉพาะอย่างยิ่งจากคู่แข่งอย่าง DeepSeek ซึ่งก่อให้เกิดสงครามราคาที่รุนแรง สิ่งนี้ส่งผลโดยตรงต่อฐานผู้ใช้แอปพลิเคชันแชท Kimi ของ Moonshot ซึ่งมีอันดับในประเทศหลุดลอย

ข้อมูลล่าสุดสำหรับเดือนตุลาคม 2025 จาก Statcounter ยืนยันการแข่งขันที่รุนแรง โดยแสดงให้เห็นว่า ปัจจุบัน Moonshot ไม่ได้อยู่ในผู้ให้บริการแชทบอท AI อันดับต้น ๆ ในจีน

Moonshot กำลังเดิมพัน ความสามารถที่เหนือกว่าในด้านเอเจนต์ AI ที่เกิดขึ้นใหม่สามารถสร้างตำแหน่งทางการตลาดที่สามารถป้องกันได้มากกว่าการแข่งขันด้วยต้นทุนเพียงอย่างเดียว อย่างไรก็ตาม การมุ่งเน้นที่ประสิทธิภาพของลีดเดอร์บอร์ดอย่างจริงจังนี้ย่อมมีความเสี่ยงในตัวมันเอง

ดังที่ Nate Jones นักยุทธศาสตร์ด้าน AI กล่าวไว้ก่อนหน้านี้ว่า”เมื่อเราตั้งเป้าหมายให้การครอบงำของลีดเดอร์บอร์ดเป็นเป้าหมาย เราก็เสี่ยงที่จะสร้างแบบจำลองที่เป็นเลิศในแบบฝึกหัดเล็กๆ น้อยๆ และดิ้นรนเมื่อเผชิญกับความเป็นจริง”Moonshot มุ่งหวังที่จะพิสูจน์ชัยชนะด้านเกณฑ์มาตรฐานโดยแปลเป็นอรรถประโยชน์ในโลกแห่งความเป็นจริงที่จำเป็นในการชิงส่วนแบ่งตลาดกลับคืนมา

[เนื้อหาแบบฝัง]

การแข่งขันระดับโลกเพื่ออำนาจสูงสุดด้านตัวแทน

ความพยายามล่าสุดของ Moonshot เป็นส่วนหนึ่งของการเปลี่ยนแปลงขั้นพื้นฐานระดับโลกในอุตสาหกรรม AI บริษัทต่างๆ กำลังก้าวไปไกลกว่าแชทบอทที่สร้างคำแนะนำข้อความหรือโค้ดเพียงอย่างเดียว

ขอบเขตใหม่คือระบบอัจฉริยะแบบเอเจนต์: การสร้างระบบอัตโนมัติที่สามารถเข้าใจเป้าหมายระดับสูง กำหนดแผน และใช้เครื่องมือดิจิทัลที่หลากหลายเพื่อดำเนินการดังกล่าว Kimi K2 Thinking ได้รับการออกแบบมาอย่างชัดเจนเพื่อแข่งขันในเวทีนี้

คุณค่าของแนวทางตัวแทนนี้ได้รับการพิสูจน์แล้วในโลกธุรกิจ ในความเคลื่อนไหวครั้งสำคัญ ธนาคารเพื่อการลงทุน Goldman Sachs เริ่มนำร่องโปรแกรมสร้างโค้ด AI อัตโนมัติ Devin เพื่อสร้าง”แรงงานแบบผสมผสาน”วิสัยทัศน์ของบริษัทคือการให้วิศวกรที่เป็นมนุษย์ควบคุมกลุ่มตัวแทน AI โดยเปลี่ยนธรรมชาติของการพัฒนาซอฟต์แวร์

Marco Argenti หัวหน้าฝ่ายเทคโนโลยีของ Goldman อธิบายกลยุทธ์นี้ว่า”จริงๆ แล้วมันเป็นเรื่องของผู้คนและ AI ที่ทำงานเคียงข้างกัน วิศวกรได้รับการคาดหวังให้มีความสามารถในการอธิบายปัญหาอย่างแท้จริงในวิธีที่สอดคล้องกันและเปลี่ยนให้เป็นการแจ้งเตือน…”

การเปลี่ยนแปลงดังกล่าวสะท้อนให้เห็นถึงอนาคตที่ทักษะหลักของมนุษย์ไม่ได้อยู่ การดำเนินการที่น่าเบื่อแต่ให้คำจำกัดความและการกำกับดูแลปัญหาในระดับสูง

ด้วยการสร้างแบบจำลองที่เป็นเลิศในการใช้เครื่องมือที่ซับซ้อนและหลายขั้นตอน Moonshot AI กำลังวางตำแหน่งตัวเองให้เป็นผู้เล่นหลักในกระบวนทัศน์ใหม่นี้ ด้วย Kimi K2 Thinking บริษัทกำลังเดิมพันสูงว่าในโลกที่เต็มไปด้วยโมเดลที่ทรงพลัง โมเดลที่สามารถให้เหตุผลได้อย่างมีประสิทธิภาพมากที่สุดจะชนะระบบนิเวศของนักพัฒนาในท้ายที่สุด

เกณฑ์มาตรฐาน Kimi K2

LiveCodeBench v6

Pass@1 53.7 46.9 37.0 48.5 47.4 44.7 44.7 Pass@1 27.1 24.0 11.3 15.3 19.6 19.5 19.5 Pass@1 85.7 83.1 78.2 88.6 89.6 86.7 85.6

SWE-bench Verified

แพทช์เดี่ยวที่ไม่มีการทดสอบ (Acc) 51.8 36.6 39.4 50.2 53.0 40.8 32.6

SWE-bench Verified

พยายามครั้งเดียว (Acc) 65.8 38.8 34.4 72.7* 72.5* 54.6 — พยายามหลายครั้ง (Acc) 71.6 — — 80.2* 79.4* — —

SWE-bench หลายภาษา

ความพยายามครั้งเดียว (Acc) 47.3 25.8 20.9 51.0 — 31.5 —

TerminalBench

กรอบงานภายใน (Acc) 30.0 — — 35.5 43.2 8.3 — ปลายทาง (Acc) 25.0 16.3 6.6 — — 30.3 16.8

Aider-Polyglot

Acc 60.0 55.1 61.8 56.4 70.7 52.4 44.0

Tau2 ขายปลีก

Avg@4 70.6 69.1 57.0 75.0 81.8 74.8 64.3

Tau2 สายการบิน

Avg@4 56.5 39.0 26.5 55.5 60.0 54.5 42.5

Tau2 โทรคมนาคม

Avg@4 65.8 32.5 22.1 45.2 57.0 38.6 16.9 รวม 76.5 72.7 70.5 76.2 75.6 80.1 74.5 เฉลี่ย@64 69.6 59.4* 40.1* 43.4 48.2 46.5 61.3 เฉลี่ย@64 49.5 46.7 24.7* 33.1* 33.9* 37.0 46.6 Acc 97.4 94.0* 91.2* 94.0 94.4 92.4 95.4 Avg@32 38.8 27.5 11.9 15.9 15.9 19.4 34.7 Avg@16 74.3 74.7 48.6 60.4 57.6 56.6 75.0

PolyMath-en

Avg@4 65.1 59.5 51.9 52.8 49.8 54.0 49.9

ZebraLogic

บัญชี 89.0 84.0 37.7* 79.7 59.3 58.5 57.9 บัญชี 89.5 88.9 83.3* 89.8 86.1 88.2 84.1

GPQA-Diamond

Avg@8 75.1 68.4* 62.9* 70.0* 74.9* 66.3 68.2 Acc 57.2 53.7 50.2 55.7 56.5 50.8 49.6

การทดสอบครั้งสุดท้ายของมนุษยชาติ

Acc 4.7 5.2 5.7 5.8 7.1 3.7 5.6 EM 89.5 89.4 87.0 91.5 92.9 90.4 90.1

MMLU-Redux

EM 92.7 90.5 89.2* 93.6 94.2 92.4 90.6 EM 81.1 81.2* 77.3 83.7 86.6 81.8 79.4 เข้มงวดพร้อมท์ 89.8 81.1 83.2* 87.6 87.4 88.0 84.3

ความท้าทายหลายด้าน

Acc 54.1 31.4 34.0 46.8 49.0 36.4 39.5 ถูกต้อง 31.0 27.7 13.2 15.9 22.8 42.3 23.3 Pass@1 76.4 72.4 67.6 74.8 74.6 69.8  

(ที่มา: Moonshot AI)

Categories: IT Info