นักวิจัย AI ของ Samsung ในมอนทรีออลได้สร้างโมเดล AI ขนาดเล็กที่เจาะลึกกว่าน้ำหนักของมันมาก ซึ่งท้าทายการมุ่งเน้นไปที่อุตสาหกรรมขนาดใหญ่ Tiny Recursive Model (TRM) ที่เปิดตัวในสัปดาห์นี้ซึ่งมีพารามิเตอร์ 7 ล้านพารามิเตอร์มีประสิทธิภาพเหนือกว่าโมเดลยักษ์ใหญ่อย่าง Gemini 2.5 Pro ของ Google ในด้านปริศนาการใช้เหตุผลอันยากลำบาก
โมเดลนี้พัฒนาโดย Alexia Jolicoeur-Martineau และมีรายละเอียดใน บทความที่ตีพิมพ์บน arXiv มีจุดมุ่งหมายเพื่อพิสูจน์ว่าการออกแบบที่ชาญฉลาดมีความสำคัญมากกว่าขนาดที่แท้จริง ใช้กระบวนการ”แบบเรียกซ้ำ”ง่ายๆ เพื่อคิดแบบวนซ้ำและปรับปรุงคำตอบของตัวเอง โดยนำเสนอเส้นทางที่มีประสิทธิภาพมากขึ้นสำหรับการสร้างสรรค์นวัตกรรม
แนวทางนี้ตั้งคำถามถึงความจำเป็นในการใช้โมเดลขนาดใหญ่และมีราคาแพงในการแก้ปัญหา Hard AI ดังที่ Jolicoeur-Martineau กล่าวไว้ว่า “ความคิดที่ว่าเราต้องพึ่งพาโมเดลพื้นฐานขนาดใหญ่ที่ได้รับการฝึกฝนมูลค่าหลายล้านดอลลาร์โดยองค์กรขนาดใหญ่บางแห่งเพื่อแก้ปัญหางานหนักนั้นเป็นกับดัก” การเปิดตัวครั้งนี้ส่งสัญญาณถึงความเคลื่อนไหวที่เพิ่มมากขึ้นไปสู่รุ่นที่มีขนาดเล็กและเชี่ยวชาญเป็นพิเศษ
จากลำดับชั้นที่ซับซ้อนไปสู่ความเรียบง่ายแบบเรียกซ้ำ
TRM พัฒนามาจาก แบบจำลองการใช้เหตุผลเชิงลำดับชั้น (HRM) แต่ทำให้การออกแบบง่ายขึ้นอย่างมาก เปิดตัวเมื่อต้นปีนี้ HRM ใช้เครือข่าย 2 เครือข่ายแยกกันที่ทำงานที่ความถี่ต่างกัน ซึ่งเป็นแนวคิดที่ผู้สร้างสร้างขึ้นโดยมีข้อโต้แย้งทางชีววิทยาที่ซับซ้อนเกี่ยวกับสมองมนุษย์
แนวทางดังกล่าวยังอาศัยหลักการทางคณิตศาสตร์ขั้นสูง เช่น ทฤษฎีบทฟังก์ชันโดยนัย เพื่อจัดการกระบวนการเรียนรู้ ทำให้แยกวิเคราะห์ได้ยาก งานของ Jolicoeur-Martineau ขจัดชั้นนามธรรมเหล่านี้ออกไป
TRM ใช้เครือข่ายสองชั้นเล็กๆ เพียงเครือข่ายเดียว โดยแยกจากการเปรียบเทียบทางชีววิทยาและการพึ่งพาจุดคงที่ ทำให้สถาปัตยกรรมมีความโปร่งใสมากขึ้น เป้าหมายคือการแยกกลไกหลักออก: การปรับปรุงแบบเรียกซ้ำ
นวัตกรรมหลักคือกระบวนการให้เหตุผล แบบจำลองเริ่มต้นด้วยคำตอบคร่าวๆ และปรับแต่งซ้ำๆ ในแต่ละลูป ขั้นแรกจะอัปเดต”กระบวนการคิด”ภายในก่อนที่จะอัปเดตคำตอบสุดท้าย ซึ่งจำลองเครือข่ายที่ลึกกว่ามากได้อย่างมีประสิทธิภาพโดยไม่ต้องเสียค่าใช้จ่ายสูง
ลูปการพัฒนาตนเองนี้เป็นรูปแบบหนึ่งของ”การควบคุมดูแลเชิงลึก”โดยที่โมเดลจะได้รับการฝึกในแต่ละขั้นตอนเพื่อให้เข้าใกล้โซลูชันที่ถูกต้องมากขึ้น ซึ่งช่วยให้สามารถเรียนรู้ห่วงโซ่การใช้เหตุผลที่ซับซ้อนหลายขั้นตอนซึ่งโดยปกติแล้วจะต้องใช้แบบจำลองที่ใหญ่กว่ามาก
ดังที่รายงานการวิจัยอธิบายว่า”กระบวนการแบบเรียกซ้ำนี้ทำให้แบบจำลองสามารถปรับปรุงคำตอบได้อย่างต่อเนื่อง… ในลักษณะที่มีประสิทธิภาพด้านพารามิเตอร์อย่างยิ่งยวดในขณะที่ลดการติดตั้งมากเกินไป”วิธีการนี้จะเพิ่มประสิทธิภาพและหลีกเลี่ยงปัญหาที่โมเดลขนาดใหญ่ต้องเผชิญบนชุดข้อมูลขนาดเล็ก
เจาะลึกเหนือน้ำหนักด้วยเกณฑ์มาตรฐานการใช้เหตุผล
พลังของ TRM เห็นได้ชัดเจนที่สุดจากเกณฑ์มาตรฐานที่ออกแบบมาเพื่อทดสอบการใช้เหตุผลเชิงนามธรรมของ AI ซึ่งเป็นโดเมนที่แม้แต่โมเดลที่ใหญ่ที่สุดมักจะประสบปัญหา ความสำเร็จที่โดดเด่นของมันมาจาก Abstract and Reasoning Corpus (ARC-AGI) ซึ่งเป็นชุดปริศนาภาพสุดท้าทายที่เรียบง่ายสำหรับมนุษย์ แต่ยากอย่างฉาวโฉ่สำหรับ AI
ในการทดสอบเวอร์ชันแรก ARC-AGI-1 นั้น TRM มีความแม่นยำถึง 45% คะแนนนี้แซงหน้ารุ่นใหญ่หลายๆ รุ่นของอุตสาหกรรม รวมถึง Gemini 2.5 Pro ของ Google (37.0%), o3-mini-high ของ OpenAI (34.5%) และ DeepSeek R1 (15.8%) แม้ว่า TRM จะมีพารามิเตอร์น้อยกว่า 0.01% ก็ตาม
ข้อได้เปรียบของโมเดลยังคงอยู่ที่เกณฑ์มาตรฐาน ARC-AGI-2 ที่ยากยิ่งขึ้นไปอีก ที่นี่ TRM ได้คะแนน 7.8% เอาชนะ Gemini 2.5 Pro ได้ 4.9% และ o3-mini-high ที่ 3.0% อีกครั้ง แม้ว่าคะแนนสัมบูรณ์เหล่านี้อาจดูต่ำ แต่ก็แสดงถึงการก้าวกระโดดที่สำคัญในเกณฑ์มาตรฐานที่ความคืบหน้าช้าอย่างฉาวโฉ่
สำหรับบริบทแล้ว กระดานผู้นำปัจจุบัน นั้นมีโมเดลล้ำหน้าขนาดใหญ่อย่าง Grok 4 ของ xAI แต่ประสิทธิภาพของ TRM ที่มีพารามิเตอร์เพียง 7 ล้านตัวทำให้น่าทึ่งมาก ค่าผิดปกติ โดยเน้นที่ประสิทธิภาพของสถาปัตยกรรม
ความโดดเด่นของโมเดลขยายไปยังโดเมนลอจิคัลอื่นๆ ที่โมเดลขนาดใหญ่มักจะสะดุด บน Sudoku-Extreme ซึ่งเป็นชุดข้อมูลปริศนาที่ยากซึ่งมีตัวอย่างการฝึกเพียง 1,000 ตัวอย่าง TRM ได้สร้างสถิติใหม่ล้ำสมัยด้วยความแม่นยำ 87.4% สิ่งนี้แสดงถึงการปรับปรุงอย่างมากจาก HRM รุ่นก่อนซึ่งทำได้ 55%
ในทำนองเดียวกัน ในเกณฑ์มาตรฐาน Maze-Hard ซึ่งเกี่ยวข้องกับการค้นหาเส้นทางยาวผ่านกริด 30×30 ที่ซับซ้อน TRM ได้คะแนน 85.3% ผลลัพธ์เหล่านี้ในโดเมนลอจิคัลที่แตกต่างกันหลายโดเมน แสดงให้เห็นถึงพลังของแนวทางแบบเรียกซ้ำสำหรับการแก้ปัญหาแบบมีโครงสร้าง
‘Less is More’: ปรัชญาใหม่สำหรับ AI ที่มีประสิทธิภาพ
บางทีอาจน่าทึ่งที่สุด คือประสิทธิภาพของโมเดล โมเดลทั้งหมดได้รับการฝึกฝนในเวลาเพียงสองวันบน NVIDIA H-100 GPU สี่ตัวในราคาต่ำกว่า $500 ตามที่นักวิจัยยืนยัน สิ่งนี้ตรงกันข้ามกับการฝึกอบรมมูลค่าหลายล้านดอลลาร์ที่จำเป็นสำหรับ LLM แนวหน้าในปัจจุบัน
<500$, 4 H-100 เป็นเวลาประมาณ 2 วัน
— Alexia Jolicoeur-Martineau (@jm_alexia) 7 ตุลาคม 2025
Jolicoeur-Martineau เน้นประเด็นนี้โดยระบุว่า “ด้วย การใช้เหตุผลแบบเรียกซ้ำ ปรากฎว่า’น้อยแต่มาก’โมเดลเล็กๆ ที่ได้รับการฝึกฝนตั้งแต่เริ่มต้น… สามารถประสบความสำเร็จได้มากมายโดยไม่ทำลายเงินที่เสียไป”ความคุ้มทุนนี้ทำให้การวิจัย AI ที่ล้ำหน้าเป็นประชาธิปไตย
การค้นพบว่าเครือข่าย 2 ชั้นที่เล็กกว่ามีประสิทธิภาพเหนือกว่าเวอร์ชันที่ใหญ่กว่านั้น ยังท้าทายกฎหมายการปรับขนาดแบบเดิมๆ อีกด้วย บทความนี้แนะนำว่าเป็นเพราะความลึกแบบเรียกซ้ำช่วยป้องกันการติดตั้งมากเกินไป ซึ่งเป็นปัญหาทั่วไปในการฝึกโมเดลขนาดใหญ่บนข้อมูลที่จำกัด
วิศวกรวิจัย AI Sebastian Raschka แสดงความคิดเห็นเกี่ยวกับประสิทธิภาพ โดยสังเกตว่า”ใช่ คุณยังสามารถทำสิ่งดีๆ ได้โดยไม่ต้องมีศูนย์ข้อมูล”
จากโมเดลการใช้เหตุผลเชิงลำดับชั้น (HRM) ไปจนถึงโมเดล Tiny Recursive ใหม่ (TRM)
ไม่กี่เดือนที่ผ่านมา HRM ได้สร้างคลื่นลูกใหญ่ในชุมชนการวิจัย AI เนื่องจากแสดงให้เห็นประสิทธิภาพที่ดีมากกับความท้าทายของ ARC แม้จะมีขนาดเล็กเพียง 27M ก็ตาม (ซึ่งเล็กกว่า… ประมาณ 22 เท่า… pic.twitter.com/YhMpn4hlxi
— Sebastian Raschka (@rasbt) 8 ตุลาคม 2025
โครงการนี้ บน GitHub ภายใต้ใบอนุญาต MIT ที่ได้รับอนุญาต ช่วยให้สามารถนำไปใช้ในเชิงพาณิชย์และสนับสนุนให้มีการใช้งานในวงกว้างขึ้น
นักแก้ปัญหาเฉพาะทาง ไม่ใช่ผู้ทั่วไป
การทำความเข้าใจ TRM เป็นสิ่งสำคัญ บริบท โมเดลดังกล่าวเป็นตัวแก้ปัญหาที่มีความเชี่ยวชาญสูง ไม่ใช่แชทบอตที่ใช้งานทั่วไปเหมือนกับที่ใช้โมเดลจาก OpenAI หรือ Google ประสิทธิภาพการทำงานจำกัดอยู่ที่งานที่มีโครงสร้างตามตารางซึ่งมีวิธีการเรียกซ้ำเป็นเลิศ
ความเชี่ยวชาญพิเศษนี้เป็นคุณลักษณะ ไม่ใช่จุดบกพร่อง ดังที่ Deedy Das หุ้นส่วนของ Menlo Ventures ตั้งข้อสังเกตว่า “บริษัท AI ส่วนใหญ่ในปัจจุบันใช้ LLM สำหรับวัตถุประสงค์ทั่วไปเพื่อแจ้งงานต่างๆ สำหรับเฉพาะ งาน โมเดลที่เล็กกว่าอาจไม่เพียงแค่ราคาถูกกว่า แต่มีคุณภาพสูงกว่ามาก!”
กระดาษ TRM ให้ความรู้สึกเหมือนความก้าวหน้าของ AI ที่สำคัญ
มันทำลายขอบเขตพาเรโตในการวัดประสิทธิภาพ ARC AGI 1 และ 2 (และการแก้ปัญหา Sudoku และ Maze) ด้วยต้นทุนต่องานประมาณ <0.01 ดอลลาร์ และค่าใช้จ่าย <500 ดอลลาร์เพื่อฝึกโมเดล 7M บน 2 H100 เป็นเวลา 2 วัน
[ข้อมูลเฉพาะเกี่ยวกับการฝึกอบรมและการทดสอบ]… pic.twitter.com/9c31HdxiLy
— Deedy (@deedydas) 9 ตุลาคม 2025
การมุ่งเน้นนี้หมายความว่า TRM จะไม่เขียนบทกวีหรือสรุปการประชุม อย่างไรก็ตามความสำเร็จนั้นมอบพลังอันทรงพลัง การพิสูจน์แนวคิดสำหรับองค์กร โดยชี้ให้เห็นว่ากลุ่มโมเดลผู้เชี่ยวชาญขนาดเล็กจำนวนมากอาจมีประสิทธิผลและประสิทธิผลมากกว่าโมเดลทั่วไปที่มีเสาหินเพียงตัวเดียว
ในขณะที่ชุมชน AI ชื่นชมนวัตกรรมนี้ บางคนก็สังเกตเห็นขอบเขตที่แคบ ฉันทามติก็คือแม้ว่า TRM จะไม่ใช่รูปแบบหนึ่งของความฉลาดทั่วไป แต่ข้อความของมันก็กว้าง: การเรียกซ้ำอย่างระมัดระวัง ไม่ใช่แค่การขยายอย่างต่อเนื่อง สามารถขับเคลื่อนการวิจัยการใช้เหตุผลคลื่นลูกใหม่ได้