นักวิจัย AI ของ Samsung ในมอนทรีออลได้สร้างโมเดล AI ขนาดเล็กที่เจาะลึกกว่าน้ำหนักของมันมาก ซึ่งท้าทายการมุ่งเน้นไปที่อุตสาหกรรมขนาดใหญ่ Tiny Recursive Model (TRM) ที่เปิดตัวในสัปดาห์นี้ซึ่งมีพารามิเตอร์ 7 ล้านพารามิเตอร์มีประสิทธิภาพเหนือกว่าโมเดลยักษ์ใหญ่อย่าง Gemini 2.5 Pro ของ Google ในด้านปริศนาการใช้เหตุผลอันยากลำบาก

โมเดลนี้พัฒนาโดย Alexia Jolicoeur-Martineau และมีรายละเอียดใน บทความที่ตีพิมพ์บน arXiv มีจุดมุ่งหมายเพื่อพิสูจน์ว่าการออกแบบที่ชาญฉลาดมีความสำคัญมากกว่าขนาดที่แท้จริง ใช้กระบวนการ”แบบเรียกซ้ำ”ง่ายๆ เพื่อคิดแบบวนซ้ำและปรับปรุงคำตอบของตัวเอง โดยนำเสนอเส้นทางที่มีประสิทธิภาพมากขึ้นสำหรับการสร้างสรรค์นวัตกรรม

แนวทางนี้ตั้งคำถามถึงความจำเป็นในการใช้โมเดลขนาดใหญ่และมีราคาแพงในการแก้ปัญหา Hard AI ดังที่ Jolicoeur-Martineau กล่าวไว้ว่า “ความคิดที่ว่าเราต้องพึ่งพาโมเดลพื้นฐานขนาดใหญ่ที่ได้รับการฝึกฝนมูลค่าหลายล้านดอลลาร์โดยองค์กรขนาดใหญ่บางแห่งเพื่อแก้ปัญหางานหนักนั้นเป็นกับดัก” การเปิดตัวครั้งนี้ส่งสัญญาณถึงความเคลื่อนไหวที่เพิ่มมากขึ้นไปสู่รุ่นที่มีขนาดเล็กและเชี่ยวชาญเป็นพิเศษ

จากลำดับชั้นที่ซับซ้อนไปสู่ความเรียบง่ายแบบเรียกซ้ำ

TRM พัฒนามาจาก แบบจำลองการใช้เหตุผลเชิงลำดับชั้น (HRM) แต่ทำให้การออกแบบง่ายขึ้นอย่างมาก เปิดตัวเมื่อต้นปีนี้ HRM ใช้เครือข่าย 2 เครือข่ายแยกกันที่ทำงานที่ความถี่ต่างกัน ซึ่งเป็นแนวคิดที่ผู้สร้างสร้างขึ้นโดยมีข้อโต้แย้งทางชีววิทยาที่ซับซ้อนเกี่ยวกับสมองมนุษย์

แนวทางดังกล่าวยังอาศัยหลักการทางคณิตศาสตร์ขั้นสูง เช่น ทฤษฎีบทฟังก์ชันโดยนัย เพื่อจัดการกระบวนการเรียนรู้ ทำให้แยกวิเคราะห์ได้ยาก งานของ Jolicoeur-Martineau ขจัดชั้นนามธรรมเหล่านี้ออกไป

TRM ใช้เครือข่ายสองชั้นเล็กๆ เพียงเครือข่ายเดียว โดยแยกจากการเปรียบเทียบทางชีววิทยาและการพึ่งพาจุดคงที่ ทำให้สถาปัตยกรรมมีความโปร่งใสมากขึ้น เป้าหมายคือการแยกกลไกหลักออก: การปรับปรุงแบบเรียกซ้ำ

นวัตกรรมหลักคือกระบวนการให้เหตุผล แบบจำลองเริ่มต้นด้วยคำตอบคร่าวๆ และปรับแต่งซ้ำๆ ในแต่ละลูป ขั้นแรกจะอัปเดต”กระบวนการคิด”ภายในก่อนที่จะอัปเดตคำตอบสุดท้าย ซึ่งจำลองเครือข่ายที่ลึกกว่ามากได้อย่างมีประสิทธิภาพโดยไม่ต้องเสียค่าใช้จ่ายสูง

ลูปการพัฒนาตนเองนี้เป็นรูปแบบหนึ่งของ”การควบคุมดูแลเชิงลึก”โดยที่โมเดลจะได้รับการฝึกในแต่ละขั้นตอนเพื่อให้เข้าใกล้โซลูชันที่ถูกต้องมากขึ้น ซึ่งช่วยให้สามารถเรียนรู้ห่วงโซ่การใช้เหตุผลที่ซับซ้อนหลายขั้นตอนซึ่งโดยปกติแล้วจะต้องใช้แบบจำลองที่ใหญ่กว่ามาก

ดังที่รายงานการวิจัยอธิบายว่า”กระบวนการแบบเรียกซ้ำนี้ทำให้แบบจำลองสามารถปรับปรุงคำตอบได้อย่างต่อเนื่อง… ในลักษณะที่มีประสิทธิภาพด้านพารามิเตอร์อย่างยิ่งยวดในขณะที่ลดการติดตั้งมากเกินไป”วิธีการนี้จะเพิ่มประสิทธิภาพและหลีกเลี่ยงปัญหาที่โมเดลขนาดใหญ่ต้องเผชิญบนชุดข้อมูลขนาดเล็ก

เจาะลึกเหนือน้ำหนักด้วยเกณฑ์มาตรฐานการใช้เหตุผล

พลังของ TRM เห็นได้ชัดเจนที่สุดจากเกณฑ์มาตรฐานที่ออกแบบมาเพื่อทดสอบการใช้เหตุผลเชิงนามธรรมของ AI ซึ่งเป็นโดเมนที่แม้แต่โมเดลที่ใหญ่ที่สุดมักจะประสบปัญหา ความสำเร็จที่โดดเด่นของมันมาจาก Abstract and Reasoning Corpus (ARC-AGI) ซึ่งเป็นชุดปริศนาภาพสุดท้าทายที่เรียบง่ายสำหรับมนุษย์ แต่ยากอย่างฉาวโฉ่สำหรับ AI

ในการทดสอบเวอร์ชันแรก ARC-AGI-1 นั้น TRM มีความแม่นยำถึง 45% คะแนนนี้แซงหน้ารุ่นใหญ่หลายๆ รุ่นของอุตสาหกรรม รวมถึง Gemini 2.5 Pro ของ Google (37.0%), o3-mini-high ของ OpenAI (34.5%) และ DeepSeek R1 (15.8%) แม้ว่า TRM จะมีพารามิเตอร์น้อยกว่า 0.01% ก็ตาม

ข้อได้เปรียบของโมเดลยังคงอยู่ที่เกณฑ์มาตรฐาน ARC-AGI-2 ที่ยากยิ่งขึ้นไปอีก ที่นี่ TRM ได้คะแนน 7.8% เอาชนะ Gemini 2.5 Pro ได้ 4.9% และ o3-mini-high ที่ 3.0% อีกครั้ง แม้ว่าคะแนนสัมบูรณ์เหล่านี้อาจดูต่ำ แต่ก็แสดงถึงการก้าวกระโดดที่สำคัญในเกณฑ์มาตรฐานที่ความคืบหน้าช้าอย่างฉาวโฉ่

สำหรับบริบทแล้ว กระดานผู้นำปัจจุบัน นั้นมีโมเดลล้ำหน้าขนาดใหญ่อย่าง Grok 4 ของ xAI แต่ประสิทธิภาพของ TRM ที่มีพารามิเตอร์เพียง 7 ล้านตัวทำให้น่าทึ่งมาก ค่าผิดปกติ โดยเน้นที่ประสิทธิภาพของสถาปัตยกรรม

ความโดดเด่นของโมเดลขยายไปยังโดเมนลอจิคัลอื่นๆ ที่โมเดลขนาดใหญ่มักจะสะดุด บน Sudoku-Extreme ซึ่งเป็นชุดข้อมูลปริศนาที่ยากซึ่งมีตัวอย่างการฝึกเพียง 1,000 ตัวอย่าง TRM ได้สร้างสถิติใหม่ล้ำสมัยด้วยความแม่นยำ 87.4% สิ่งนี้แสดงถึงการปรับปรุงอย่างมากจาก HRM รุ่นก่อนซึ่งทำได้ 55%

ในทำนองเดียวกัน ในเกณฑ์มาตรฐาน Maze-Hard ซึ่งเกี่ยวข้องกับการค้นหาเส้นทางยาวผ่านกริด 30×30 ที่ซับซ้อน TRM ได้คะแนน 85.3% ผลลัพธ์เหล่านี้ในโดเมนลอจิคัลที่แตกต่างกันหลายโดเมน แสดงให้เห็นถึงพลังของแนวทางแบบเรียกซ้ำสำหรับการแก้ปัญหาแบบมีโครงสร้าง

‘Less is More’: ปรัชญาใหม่สำหรับ AI ที่มีประสิทธิภาพ

บางทีอาจน่าทึ่งที่สุด คือประสิทธิภาพของโมเดล โมเดลทั้งหมดได้รับการฝึกฝนในเวลาเพียงสองวันบน NVIDIA H-100 GPU สี่ตัวในราคาต่ำกว่า $500 ตามที่นักวิจัยยืนยัน สิ่งนี้ตรงกันข้ามกับการฝึกอบรมมูลค่าหลายล้านดอลลาร์ที่จำเป็นสำหรับ LLM แนวหน้าในปัจจุบัน

<500$, 4 H-100 เป็นเวลาประมาณ 2 วัน

— Alexia Jolicoeur-Martineau (@jm_alexia) 7 ตุลาคม 2025

Jolicoeur-Martineau เน้นประเด็นนี้โดยระบุว่า “ด้วย การใช้เหตุผลแบบเรียกซ้ำ ปรากฎว่า’น้อยแต่มาก’โมเดลเล็กๆ ที่ได้รับการฝึกฝนตั้งแต่เริ่มต้น… สามารถประสบความสำเร็จได้มากมายโดยไม่ทำลายเงินที่เสียไป”ความคุ้มทุนนี้ทำให้การวิจัย AI ที่ล้ำหน้าเป็นประชาธิปไตย

การค้นพบว่าเครือข่าย 2 ชั้นที่เล็กกว่ามีประสิทธิภาพเหนือกว่าเวอร์ชันที่ใหญ่กว่านั้น ยังท้าทายกฎหมายการปรับขนาดแบบเดิมๆ อีกด้วย บทความนี้แนะนำว่าเป็นเพราะความลึกแบบเรียกซ้ำช่วยป้องกันการติดตั้งมากเกินไป ซึ่งเป็นปัญหาทั่วไปในการฝึกโมเดลขนาดใหญ่บนข้อมูลที่จำกัด

วิศวกรวิจัย AI Sebastian Raschka แสดงความคิดเห็นเกี่ยวกับประสิทธิภาพ โดยสังเกตว่า”ใช่ คุณยังสามารถทำสิ่งดีๆ ได้โดยไม่ต้องมีศูนย์ข้อมูล”

จากโมเดลการใช้เหตุผลเชิงลำดับชั้น (HRM) ไปจนถึงโมเดล Tiny Recursive ใหม่ (TRM)

ไม่กี่เดือนที่ผ่านมา HRM ได้สร้างคลื่นลูกใหญ่ในชุมชนการวิจัย AI เนื่องจากแสดงให้เห็นประสิทธิภาพที่ดีมากกับความท้าทายของ ARC แม้จะมีขนาดเล็กเพียง 27M ก็ตาม (ซึ่งเล็กกว่า… ประมาณ 22 เท่า… pic.twitter.com/YhMpn4hlxi

— Sebastian Raschka (@rasbt) 8 ตุลาคม 2025

โครงการนี้ บน GitHub ภายใต้ใบอนุญาต MIT ที่ได้รับอนุญาต ช่วยให้สามารถนำไปใช้ในเชิงพาณิชย์และสนับสนุนให้มีการใช้งานในวงกว้างขึ้น

นักแก้ปัญหาเฉพาะทาง ไม่ใช่ผู้ทั่วไป

การทำความเข้าใจ TRM เป็นสิ่งสำคัญ บริบท โมเดลดังกล่าวเป็นตัวแก้ปัญหาที่มีความเชี่ยวชาญสูง ไม่ใช่แชทบอตที่ใช้งานทั่วไปเหมือนกับที่ใช้โมเดลจาก OpenAI หรือ Google ประสิทธิภาพการทำงานจำกัดอยู่ที่งานที่มีโครงสร้างตามตารางซึ่งมีวิธีการเรียกซ้ำเป็นเลิศ

ความเชี่ยวชาญพิเศษนี้เป็นคุณลักษณะ ไม่ใช่จุดบกพร่อง ดังที่ Deedy Das หุ้นส่วนของ Menlo Ventures ตั้งข้อสังเกตว่า “บริษัท AI ส่วนใหญ่ในปัจจุบันใช้ LLM สำหรับวัตถุประสงค์ทั่วไปเพื่อแจ้งงานต่างๆ สำหรับเฉพาะ งาน โมเดลที่เล็กกว่าอาจไม่เพียงแค่ราคาถูกกว่า แต่มีคุณภาพสูงกว่ามาก!”

กระดาษ TRM ให้ความรู้สึกเหมือนความก้าวหน้าของ AI ที่สำคัญ

มันทำลายขอบเขตพาเรโตในการวัดประสิทธิภาพ ARC AGI 1 และ 2 (และการแก้ปัญหา Sudoku และ Maze) ด้วยต้นทุนต่องานประมาณ <0.01 ดอลลาร์ และค่าใช้จ่าย <500 ดอลลาร์เพื่อฝึกโมเดล 7M บน 2 H100 เป็นเวลา 2 วัน

[ข้อมูลเฉพาะเกี่ยวกับการฝึกอบรมและการทดสอบ]… pic.twitter.com/9c31HdxiLy

— Deedy (@deedydas) 9 ตุลาคม 2025

การมุ่งเน้นนี้หมายความว่า TRM จะไม่เขียนบทกวีหรือสรุปการประชุม อย่างไรก็ตามความสำเร็จนั้นมอบพลังอันทรงพลัง การพิสูจน์แนวคิดสำหรับองค์กร โดยชี้ให้เห็นว่ากลุ่มโมเดลผู้เชี่ยวชาญขนาดเล็กจำนวนมากอาจมีประสิทธิผลและประสิทธิผลมากกว่าโมเดลทั่วไปที่มีเสาหินเพียงตัวเดียว

ในขณะที่ชุมชน AI ชื่นชมนวัตกรรมนี้ บางคนก็สังเกตเห็นขอบเขตที่แคบ ฉันทามติก็คือแม้ว่า TRM จะไม่ใช่รูปแบบหนึ่งของความฉลาดทั่วไป แต่ข้อความของมันก็กว้าง: การเรียกซ้ำอย่างระมัดระวัง ไม่ใช่แค่การขยายอย่างต่อเนื่อง สามารถขับเคลื่อนการวิจัยการใช้เหตุผลคลื่นลูกใหม่ได้

Categories: IT Info