DeepSeek ทำลายอำนาจของบริษัทยักษ์ใหญ่ด้านเทคโนโลยีตะวันตกอีกครั้งในด้านการใช้เหตุผลชั้นยอด โดยปล่อยโมเดล AI แบบเปิดน้ำหนักที่ตรงกับประสิทธิภาพของ OpenAI และ Google ในด้านคณิตศาสตร์
เปิดตัวเมื่อวันพฤหัสบดี DeepSeekMath-V2 คว้ามาตรฐานเหรียญทองในการแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ (IMO) ปี 2025
ในการแข่งขันคณิตศาสตร์ William Lowell Putnam ซึ่งมีความโดดเด่น การแข่งขันคณิตศาสตร์สำหรับนักศึกษาระดับปริญญาตรีในสหรัฐอเมริกาและแคนาดา โมเดลดังกล่าวได้คะแนน 118 จาก 120 คะแนน ซึ่งแซงหน้าคะแนนสูงสุดของมนุษย์ที่ 90 คะแนน DeepSeek ต่างจากระบบคู่แข่งที่ซ่อนอยู่หลัง API ตรงที่เปิดเผยน้ำหนักต่อสาธารณะ ช่วยให้นักวิจัยตรวจสอบตรรกะได้โดยตรง
การมาถึงในช่วงความล่าช้าของรุ่น R2 ซึ่งเป็นรุ่นเรือธงเนื่องจากการควบคุมการส่งออกของสหรัฐอเมริกา การเปิดตัวครั้งนี้เป็นการส่งสัญญาณถึงความยืดหยุ่นทางเทคนิค เป็นการพิสูจน์ว่าสถาปัตยกรรมเฉพาะทางสามารถให้ผลลัพธ์ที่ล้ำสมัยแม้ในขณะที่การเข้าถึงฮาร์ดแวร์ล้ำสมัยถูกจำกัด
มาตรฐานทองคำ: ทำลายการผูกขาดที่เป็นกรรมสิทธิ์
DeepSeekMath-V2 ได้เข้าคู่กับมาตรฐาน”เหรียญทอง”อย่างเป็นทางการในการแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ (IMO) ปี 2025 ซึ่งประสบความสำเร็จในการแก้ปัญหา 5 จาก 6 ข้อ เมื่อจับคู่เกณฑ์มาตรฐานที่เป็นกรรมสิทธิ์ซึ่งกำหนดโดยหลักไมล์สโตนที่คล้ายกันของ Google DeepMind และประสิทธิภาพระดับเหรียญทองของ OpenAI ประสิทธิภาพนี้จะช่วยยกระดับสนามแข่งขันด้วยระบบที่ไม่เคยมีใครแตะต้องมาก่อน
นอกเหนือจากการอัปเดตซ้ำๆ ง่ายๆ การเปิดตัวครั้งนี้แสดงให้เห็นถึงการเปลี่ยนแปลงพื้นฐานในการเข้าถึงการใช้เหตุผลของ AI ชั้นยอด แม้ว่าห้องปฏิบัติการของตะวันตกจะเก็บแบบจำลองทางคณิตศาสตร์ที่มีความสามารถมากที่สุดไว้เบื้องหลังกำแพง”ผู้ทดสอบที่เชื่อถือได้”หรือ API ที่มีราคาแพง ที่เก็บแบบจำลองสำหรับ DeepSeekMath-V2 ก็พร้อมให้ดาวน์โหลดได้ทันที
ขณะนี้สถาบันวิชาการและนักวิจัยระดับองค์กรสามารถเรียกใช้แบบจำลองในพื้นที่ได้ โดยตรวจสอบความสามารถของโมเดลได้โดยไม่ต้องพึ่งพา โครงสร้างพื้นฐานคลาวด์ที่อาจอยู่ภายใต้ข้อกังวลด้านความเป็นส่วนตัวของข้อมูลหรือข้อจำกัดทางภูมิศาสตร์การเมือง
นอกเหนือจาก IMO แล้ว โมเดลดังกล่าวยังแสดงให้เห็นถึงความสามารถที่ไม่เคยมีมาก่อนในการแข่งขัน Putnam ซึ่งได้รับการยกย่องอย่างกว้างขวางว่าเป็นการสอบคณิตศาสตร์ระดับปริญญาตรีที่ยากที่สุดในอเมริกาเหนือ ทีมวิจัย DeepSeek เน้นย้ำถึงความสำเร็จนี้ว่า:
“ในงาน Putnam 2024 ซึ่งเป็นการแข่งขันคณิตศาสตร์ระดับปริญญาตรีที่โดดเด่น แบบจำลองของเราแก้ไขปัญหาได้ 11 ข้อจากทั้งหมด 12 ข้อ และปัญหาที่เหลือมีข้อผิดพลาดเล็กน้อย ได้คะแนน 118/120 และแซงหน้าคะแนนสูงสุดของมนุษย์ที่ 90″
การก้าวข้ามขีดจำกัดของมนุษย์ในการสอบอันเข้มงวดดังกล่าวชี้ให้เห็นว่าแบบจำลองนี้ไม่เพียงแต่ การดึงข้อพิสูจน์ที่จดจำมาแต่มีส่วนร่วมในการแก้ปัญหาแบบใหม่ การได้รับคะแนน 118 จาก 120 คะแนนนั้นมีความโดดเด่นเป็นพิเศษเมื่อพิจารณาจากความยากระดับสุดขีดของปัญหา โดยที่คะแนนมัธยฐานต่ำเป็นประวัติการณ์
การวิเคราะห์อิสระได้ตรวจสอบความถูกต้องของตัวชี้วัดภายในเหล่านี้เพิ่มเติม การประเมินชุดย่อย”พื้นฐาน”ของ IMO-ProofBench ซึ่งเป็นเกณฑ์มาตรฐานที่พัฒนาโดย Google DeepMind แสดงให้เห็นว่าโมเดลดังกล่าวมีอัตราความสำเร็จ 99.0% ซึ่งยืนยันความสอดคล้องของการให้เหตุผลในขอบเขตทางคณิตศาสตร์ที่หลากหลาย
การยืนยันเป็นสิ่งสำคัญที่นี่ เนื่องจากเมื่อไม่นานมานี้ สนามนี้เต็มไปด้วยผลลัพธ์ที่เกินจริง เช่น การอ้างสิทธิ์ที่ถูกเพิกถอนเกี่ยวกับ GPT-5 ที่กล่าวหาว่าโมเดลได้แก้ไขแล้วอย่างไม่ถูกต้อง ปัญหาอันโด่งดังของErdős
ด้วย การปลดปล่อยน้ำหนัก ทำให้ DeepSeek ได้จำหน่ายความสามารถที่ถือเป็นคูน้ำแข่งขันสำคัญสำหรับ Silicon Valley เมื่อไม่กี่เดือนก่อนได้อย่างมีประสิทธิภาพ Clement Delangue ผู้ร่วมก่อตั้งและซีอีโอของ Hugging Face เน้นย้ำถึงความสำคัญของการเปลี่ยนแปลงนี้ในโพสต์บน X:
เท่าที่ฉันรู้ ไม่มีแชทบอตหรือ API ใดที่ให้คุณเข้าถึงโมเดลผู้ชนะเลิศเหรียญทอง IMO 2025 ได้ การเปลี่ยนแปลงนี้ไม่เพียงแต่ในปัจจุบันเท่านั้น แต่คุณยังสามารถดาวน์โหลด Weight ด้วยการเปิดตัวโอเพ่นซอร์ส Apache 2.0 ของ @deepseek_ai Math-V2 บน @huggingface!
ลองนึกภาพการเป็นเจ้าของ… pic.twitter.com/FbTcg1GcnE
— clem 🤗 (@ClementDelangue) 27 พฤศจิกายน 2025
ภายใต้ฝากระโปรง: ความก้าวหน้าของ”Meta-Verification”
ในอดีต ความท้าทายหลักใน AI ทางคณิตศาสตร์ถือเป็น”ภาพหลอน”โดยที่แบบจำลองต่างๆ ได้คำตอบที่ถูกต้องโดยใช้ตรรกะที่มีข้อบกพร่อง เป็นวงกลม หรือไร้สาระ ในการวัดประสิทธิภาพการใช้เหตุผลเชิงปริมาณ แบบจำลองมักจะสามารถคาดเดาจำนวนที่ถูกต้องได้โดยไม่เข้าใจหลักการพื้นฐาน ทีมวิจัย DeepSeek อธิบายปัญหาหลักในเอกสารไวท์เปเปอร์ทางเทคนิค:
“งานทางคณิตศาสตร์หลายอย่าง เช่น การพิสูจน์ทฤษฎีบท จำเป็นต้องมีการเดาแบบทีละขั้นตอนอย่างเข้มงวดมากกว่าคำตอบที่เป็นตัวเลข ทำให้ไม่สามารถใช้รางวัลคำตอบสุดท้ายได้”
เพื่อแก้ไขข้อจำกัดพื้นฐานนี้ เอกสารทางเทคนิคให้รายละเอียดเกี่ยวกับสถาปัตยกรรมใหม่ที่มีศูนย์กลางอยู่ที่”Meta-Verification”แตกต่างจากวิธีการตรวจสอบมาตรฐานที่เพียงแค่ตรวจสอบว่าคำตอบตรงกับข้อมูลอ้างอิงหรือไม่ วิธีการของ DeepSeek จะประเมินกระบวนการตรวจสอบเอง
DeepSeek ฝึกโมเดลรองเพื่อตัดสินคุณภาพของการวิเคราะห์ของผู้ตรวจสอบ ป้องกันไม่ให้โมเดลหลัก”เล่นเกม”ระบบการให้รางวัลโดยสร้างการพิสูจน์ที่ฟังดูน่าเชื่อถือแต่เป็นโมฆะตามตรรกะ
การสร้างการป้องกันจากการแฮ็กรางวัล โครงสร้างแบบเรียกซ้ำนี้ช่วยให้แน่ใจว่าโมเดลนั้นได้รับรางวัล เพื่อความเข้มงวดในการให้เหตุผลอย่างแท้จริงเท่านั้น ด้วยการประเมินว่าปัญหาที่ระบุในการพิสูจน์พิสูจน์เหตุผลของคะแนนหรือไม่ ระบบบังคับใช้ความสอดคล้องเชิงตรรกะที่เข้มงวด
การสนับสนุนสถาปัตยกรรมนี้เป็นไปป์ไลน์การฝึกอบรม”Cold Start”แทนที่จะอาศัยชุดข้อมูลภายนอกจำนวนมากของการพิสูจน์ทางคณิตศาสตร์อย่างเป็นทางการ ซึ่งหายากและมีราคาแพงในการดูแล แบบจำลองจะทำซ้ำข้อมูลการฝึกอบรมของตัวเอง นักวิจัยกล่าวถึงวิธีการดังกล่าวว่า:
“เราเชื่อว่า LLM สามารถได้รับการฝึกอบรมให้ระบุปัญหาการพิสูจน์โดยไม่ต้องมีวิธีแก้ปัญหาอ้างอิง ตัวตรวจสอบดังกล่าวจะช่วยให้เกิดวงจรการปรับปรุงแบบวนซ้ำได้: (1) การใช้ผลป้อนกลับในการยืนยันเพื่อเพิ่มประสิทธิภาพการสร้างหลักฐาน (2) ปรับขนาดการคำนวณการตรวจสอบเพื่อติดป้ายกำกับการพิสูจน์ใหม่ที่ยากต่อการตรวจสอบโดยอัตโนมัติ… และ (3) การใช้ตัวตรวจสอบที่ได้รับการปรับปรุงนี้เพื่อเพิ่มประสิทธิภาพการสร้างหลักฐานเพิ่มเติม”
“ยิ่งกว่านั้น เครื่องตรวจสอบการพิสูจน์ที่เชื่อถือได้ยังช่วยให้เรา สอนตัวสร้างการพิสูจน์ให้ประเมินการพิสูจน์เช่นเดียวกับผู้ตรวจสอบ ซึ่งช่วยให้ตัวสร้างการพิสูจน์ปรับแต่งการพิสูจน์ซ้ำ ๆ จนกระทั่งไม่สามารถระบุหรือแก้ไขปัญหาใด ๆ ได้อีกต่อไป”
ตลอดวงจรนี้ โมเดลจะบู๊ตความสามารถของตัวเอง เมื่อตัวตรวจสอบมีความแม่นยำมากขึ้น จึงสามารถระบุข้อผิดพลาดที่ละเอียดอ่อนมากขึ้นในเอาต์พุตของเครื่องกำเนิดไฟฟ้าได้ ด้วยเหตุนี้ ตัวสร้างจึงถูกบังคับให้สร้างการพิสูจน์ที่เข้มงวดมากขึ้นเพื่อตอบสนองเครื่องมือตรวจสอบที่ได้รับการปรับปรุง
การเปลี่ยนแปลงดังกล่าวสร้างวงจรป้อนกลับเชิงบวกที่ปรับขนาดประสิทธิภาพโดยไม่ต้องเพิ่มสัดส่วนในข้อมูลที่ติดป้ายกำกับโดยมนุษย์ ในเวลาอนุมาน โมเดลจะใช้”การคำนวณเวลาทดสอบแบบปรับขนาด”แทนที่จะสร้างคำตอบเดียว ระบบจะสร้างการพิสูจน์ผู้สมัคร 64 รายการสำหรับปัญหาที่กำหนด
จากนั้นจะดำเนินการกระบวนการตรวจสอบกับผู้สมัครทั้ง 64 คนเพื่อเลือกเส้นทางที่สมเหตุสมผลที่สุด การเปลี่ยนภาระในการคำนวณจากขั้นตอนการฝึกอบรม (การปรับขนาดพารามิเตอร์) ไปเป็นขั้นตอนการอนุมาน (การค้นหาเหตุผล) แนวทางนี้สอดคล้องกับแนวโน้มของอุตสาหกรรมที่กว้างขึ้นไปสู่การคิดแบบ”ระบบ 2″โดยที่แบบจำลอง”ไตร่ตรอง”ปัญหาก่อนที่จะแสดงวิธีแก้ปัญหา
ความยืดหยุ่นเชิงกลยุทธ์: นวัตกรรมแม้จะมีการคว่ำบาตร
ทำหน้าที่เป็นเรื่องราวโต้แย้งที่สำคัญต่อการดิ้นรนล่าสุดของบริษัทในด้านความพร้อมใช้งานของฮาร์ดแวร์ การเปิดตัว แสดงให้เห็นถึงความคล่องตัวทางเทคนิคที่สำคัญ รุ่นเรือธง R2 ของ DeepSeek เผชิญกับความล่าช้าที่เกี่ยวข้องกับฮาร์ดแวร์เนื่องจากความล้มเหลวอย่างต่อเนื่องขณะฝึกอบรมชิป Ascend ในประเทศของ Huawei
ความพ่ายแพ้ดังกล่าวเน้นย้ำถึงความยากลำบากอันยิ่งใหญ่ที่บริษัทจีนเผชิญในการสร้างชุดซอฟต์แวร์บนฮาร์ดแวร์เกิดใหม่ที่ไม่ผ่านการพิสูจน์ภายใต้แรงกดดันจากการควบคุมการส่งออกของสหรัฐฯ ด้วยการเปลี่ยนไปใช้สถาปัตยกรรมที่เน้นประสิทธิภาพ ห้องปฏิบัติการกำลังแสดงให้เห็นว่ายังคงสามารถจัดส่งงานวิจัยที่ล้ำสมัยได้
DeepSeekMath-V2 สร้างขึ้นบน DeepSeek-V3.2-Exp-Base ซึ่งพิสูจน์ได้ว่ากลไกความสนใจแบบกระจัดกระจายที่นำมาใช้ในโมเดลนั้นตั้งแต่เดือนกันยายน นั้นพร้อมสำหรับการผลิต
ในเดือนตุลาคม บริษัทได้เปิดตัวเครื่องมือการรู้จำอักขระด้วยแสง ซึ่งใช้เทคนิคประสิทธิภาพที่คล้ายคลึงกันในการบีบอัดการประมวลผลเอกสารโดย สิบเท่า
ความพร้อมใช้งานแบบ Open Weight สร้างแรงกดดันอย่างมากต่อห้องปฏิบัติการของตะวันตกในการพิสูจน์แนวทางแบบปิด
ในขณะที่”คูน้ำ”ของความสามารถในการให้เหตุผลดูเหมือนจะหายไป ข้อโต้แย้งที่ว่าความปลอดภัยจำเป็นต้องเก็บแบบจำลองเหล่านี้ไว้ภายใต้การล็อคและกุญแจจะยากขึ้นที่จะรักษาไว้ได้เมื่อความสามารถที่เทียบเคียงกันได้นั้นมีให้ใช้งานอย่างอิสระบน Hugging Face
สำหรับอุตสาหกรรม AI ในวงกว้าง ข่าวประชาสัมพันธ์นี้ชี้ให้เห็นว่าโมเดลเฉพาะทางที่ได้รับการปรับปรุงให้เหมาะสมที่สุดอาจเสนอเส้นทางที่เป็นไปได้ไปข้างหน้าแม้ว่าจะเข้าถึงคลัสเตอร์ขนาดใหญ่ก็ตาม ของ Nvidia GPU ถูกจำกัด
ด้วยการมุ่งเน้นไปที่นวัตกรรมอัลกอริทึม เช่น การตรวจสอบ Meta และความสนใจที่เบาบาง DeepSeek กำลังเจาะกลุ่มเฉพาะทางการแข่งขันที่ต้องใช้ขนาดที่ดุร้ายน้อยกว่าและอาศัยความเฉลียวฉลาดทางสถาปัตยกรรมมากขึ้น