ประสิทธิภาพการทำงานของเกณฑ์มาตรฐาน ผลลัพธ์บ่งชี้ว่าประสิทธิภาพการแข่งขันในหลาย ๆ ด้านที่สำคัญรวมถึงการเข้ารหัสการใช้เครื่องมือและการใช้เหตุผลที่ซับซ้อน
ในการกำหนดค่าการเข้ารหัส Kimi K2 ได้คะแนน 53.7 ใน LiveCodeBench V6 เมื่อเทียบกับ 47.4 สำหรับ Claude Opus 4 และ 44.7 สำหรับ GPT-4.1 ในการทดสอบการเข้ารหัส Agentic Swe-Bench ตรวจสอบความถูกต้องของการจับกุมเพียงครั้งเดียวคือ 65.8%วางไว้เหนือ Deepseek-V3 ของ 38.8%และ GPT-4.1’s 54.6%ของ GPT-4.1 ในขณะที่การทดสอบของ Claude Sonnet 4 ในงาน TAU2 Telecom, Kimi K2 ได้คะแนน 65.8 ซึ่งสูงกว่าคะแนนที่รายงานสำหรับ GPT-4.1 (38.6) และ Claude Sonnet 4 (45.2) สิ่งนี้ชี้ให้เห็นถึงความสามารถที่แข็งแกร่งสำหรับการเชื่อมต่อกับเครื่องมือภายนอกเพื่อให้บรรลุวัตถุประสงค์
สำหรับคณิตศาสตร์และการใช้เหตุผล Kimi K2 ยังแสดงให้เห็นถึงผลลัพธ์ที่แข็งแกร่ง ในเกณฑ์มาตรฐานการแข่งขันทางคณิตศาสตร์ AIME 2024 คะแนน 69.6 สูงกว่า Gemini 2.5 Flash (61.3) และ Claude Opus 4 (48.2) ในทำนองเดียวกันในการทดสอบการใช้เหตุผลของ GPQA-Diamond คะแนน 75.1 เกินกว่า 74.9 ของ Claude Opus 4 เล็กน้อย
ในการประเมินความรู้ทั่วไปเช่นเกณฑ์มาตรฐาน MMLU Kimi K2 ได้คะแนน 89.5 สถานที่นี้ในการแข่งขันอย่างใกล้ชิดกับรุ่นชายแดนอื่น ๆ ด้วย GPT-4.1 ให้คะแนน 90.4 และ Claude Opus 4 บรรลุ 92.9 โดยรวมแล้วข้อมูลแสดงให้เห็นว่า Kimi K2 เป็นแบบจำลองที่มีความสามารถสูงโดยเฉพาะอย่างยิ่งในหมวดหมู่โอเพ่นซอร์ส
ภายใต้ประทุน: ตัวแทนพารามิเตอร์ที่สร้างขึ้นเพื่อการกระทำ
href=”https://moonshotai.github.io/kimi-k2/”target=”_ blank”> 32 พันล้านถูกเปิดใช้งานสำหรับโทเค็นที่ได้รับ สถาปัตยกรรมนี้คล้ายกับที่ใช้โดยคู่แข่ง Deepseek-V3 ได้รับการออกแบบมาเพื่อประสิทธิภาพการคำนวณในระดับขนาดใหญ่ซึ่งเป็นปัจจัยสำคัญสำหรับการปรับใช้ในทางปฏิบัติ
สถาปัตยกรรมของโมเดลรองรับความยาวบริบท 128K และขนาดคำศัพท์ 160k มันมีผู้เชี่ยวชาญ 384 คนที่แตกต่างกันโดยมีแปดคนที่ถูกเลือกให้ประมวลผลโทเค็นแต่ละตัวช่วยให้การคำนวณที่มีความเชี่ยวชาญสูงและมีประสิทธิภาพสูง การออกแบบนี้เป็นผลมาจากการวิเคราะห์ตามกฎหมายที่มีจุดมุ่งหมายเพื่อเพิ่มประสิทธิภาพโทเค็นสูงสุด
แบบจำลองได้รับการฝึกอบรมล่วงหน้าบนโทเค็น 15.5 ล้านล้านโทเค็น เพื่อจัดการกระบวนการนี้โดยไม่ล้มเหลว Moonshot ได้พัฒนาเครื่องมือเพิ่มประสิทธิภาพ“ Muonclip” นวนิยาย เทคนิคนี้เป็นวิวัฒนาการของ งานก่อนหน้านี้ใน Muon Optimizer Logits”ที่สามารถทำให้การพัฒนาแบบจำลองขนาดใหญ่ตกราง บริษัท รายงานว่าวิธีการนี้อนุญาตให้เสร็จสิ้นการฝึกอบรมโทเค็น 15.5T ทั้งหมดดำเนินการด้วย“ Zero Training Spike” เน้นความแข็งแกร่ง
นอกเหนือจากสถาปัตยกรรมหลักความสามารถทางตัวแทนของ Kimi K2 ได้รับการฝึกฝนผ่านการสังเคราะห์ข้อมูลที่ซับซ้อน ระบบนี้จำลองสถานการณ์ในโลกแห่งความเป็นจริงด้วยเครื่องมือหลายพันตัวรวมถึงสิ่งเหล่านั้นที่เข้ากันได้กับโมเดลบริบทโปรโตคอล (MCP) เพื่อสร้างข้อมูลการฝึกอบรมที่ใช้รูบริกคุณภาพสูงสำหรับการใช้เครื่องมือ
นอกจากนี้ Moonshot ยังใช้ระบบ”การเรียนรู้เสริมแรงทั่วไป”สิ่งนี้เกี่ยวข้องกับกลไกการตัดสินด้วยตนเองที่แบบจำลองทำหน้าที่เป็นนักวิจารณ์ของตัวเองเพื่อให้ข้อเสนอแนะเกี่ยวกับงานที่มีรางวัลที่ไม่สามารถตรวจสอบได้เช่นการเขียนรายงานขั้นตอนสำคัญในการพัฒนาทักษะตัวแทนทั่วไปและเชื่อถือได้มากขึ้น รุ่นของรุ่น Kimi-K2-base เป็นรูปแบบพื้นฐานสำหรับนักวิจัยที่ต้องการการควบคุมอย่างเต็มที่สำหรับการปรับแต่ง Kimi-K2-Instruct เป็นเวอร์ชันโพสต์ที่ได้รับการฝึกฝนให้เหมาะกับการแชทและอธิบายว่าเป็น“ โมเดลระดับสะท้อนโดยไม่ต้องคิดมานาน” สำหรับงานตัวแทนนอกกล่อง”
moonshot ให้การเข้าถึง Kimi K2 ผ่าน นักพัฒนา api และ ปัญหาที่จะระบุ หน่วยสืบราชการลับหลังจากอุตสาหกรรมพื้นฐานเปลี่ยนไปจากผู้ช่วย AI ที่เพียงแนะนำข้อความหรือรหัส ตัวแทน AI ได้รับการออกแบบมาเพื่อทำความเข้าใจเป้าหมายสร้างแผนและใช้เครื่องมือเพื่อดำเนินงานที่ซับซ้อนและหลายขั้นตอน
มูลค่าของวิธีการตัวแทนนี้ได้รับการตรวจสอบแล้วโดย บริษัท ในสถานที่สำคัญธนาคารเพื่อการลงทุน Goldman Sachs เพิ่งเริ่มนำร่อง AI Coder Devin อิสระ ธนาคารมีเป้าหมายที่จะสร้าง“ แรงงานลูกผสม” ที่วิศวกรมนุษย์ดูแลตัวแทน AI หลายพันคน
หัวหน้าเทคโนโลยีของโกลด์แมนมาร์โกอาร์เจนติอธิบายวิสัยทัศน์ที่ระบุว่า“ มันเกี่ยวกับผู้คนและการทำงานด้านข้าง แรงงานกับ Devin ซึ่งจะเป็นเหมือนพนักงานใหม่ของเราที่กำลังจะเริ่มทำสิ่งต่าง ๆ ในนามของนักพัฒนาของเรา”เปลี่ยนความสนใจของมนุษย์จากการเข้ารหัสที่น่าเบื่อไปสู่การกำกับดูแลระดับสูง
แนวโน้มนี้ไม่ จำกัด เฉพาะด้านการเงิน ตลาดการเข้ารหัส AI ที่กว้างขึ้นเป็นสนามรบโดย Google เปิดตัวตัวแทน Jules และ Free Gemini CLI Openai ให้การเข้าถึงอินเทอร์เน็ตตัวแทน Codex แม้ว่า CEO Sam Altman เตือนผู้ใช้ให้“ อ่านเกี่ยวกับความเสี่ยงอย่างรอบคอบและใช้งานเมื่อมันสมเหตุสมผล” ยอมรับความเสี่ยงโดยธรรมชาติ
ในขณะเดียวกัน บริษัท สตาร์ทอัพกำลังมุ่งเน้นไปที่การรวมเวิร์กโฟลว์ลึก Anysphere ผู้ผลิต Cursor AI Editor ที่ได้รับความนิยมเพิ่งเปิดตัวเว็บแอพเพื่อจัดการตัวแทนการเข้ารหัสจากอุปกรณ์ใด ๆ กลยุทธ์“ หลายพื้นผิว” นี้มีจุดมุ่งหมายเพื่อให้ AI เป็นผู้ทำงานร่วมกันโดยรอบและปัจจุบัน