Một nhà nghiên cứu AI của Samsung ở Montreal đã tạo ra một mô hình AI nhỏ bé có sức mạnh vượt xa trọng lượng của nó, thách thức sự tập trung của ngành vào quy mô lớn. Được phát hành trong tuần này, Mô hình đệ quy nhỏ (TRM) gồm 7 triệu tham số vượt trội so với các mô hình khổng lồ như Gemini 2.5 Pro của Google trong các câu đố suy luận khó.

Mô hình này do Alexia Jolicoeur-Martineau phát triển và được trình bày chi tiết trong một bài báo được xuất bản trên arXiv, nhằm mục đích chứng minh rằng thiết kế thông minh có thể quan trọng hơn kích thước tuyệt đối. Nó sử dụng quy trình”đệ quy”đơn giản để suy nghĩ theo vòng lặp và cải thiện các câu trả lời của riêng mình, đưa ra con đường đổi mới hiệu quả hơn.

Cách tiếp cận này đặt ra câu hỏi về nhu cầu cần có các mô hình khổng lồ, tốn kém để giải quyết các vấn đề khó về AI. Như Jolicoeur-Martineau đã nói, “ý tưởng cho rằng người ta phải dựa vào các mô hình nền tảng khổng lồ được một tập đoàn lớn nào đó đào tạo hàng triệu đô la để giải quyết các nhiệm vụ khó khăn là một cái bẫy.” Bản phát hành báo hiệu xu hướng ngày càng tăng hướng tới các mẫu máy chuyên dụng, nhỏ hơn.

Từ hệ thống phân cấp phức tạp đến sự đơn giản đệ quy

TRM phát triển từ Mô hình lý luận phân cấp (HRM) nhưng đơn giản hóa triệt để thiết kế của nó. Được giới thiệu vào đầu năm nay, HRM đã sử dụng hai mạng riêng biệt hoạt động ở các tần số khác nhau, một khái niệm mà người tạo ra nó chứng minh bằng những lập luận sinh học phức tạp về bộ não con người.

Cách tiếp cận đó cũng dựa trên các nguyên tắc toán học nâng cao như Định lý hàm ẩn để quản lý quá trình học tập của nó, khiến việc phân tích cú pháp trở nên khó khăn. Công việc của Jolicoeur-Martineau loại bỏ các lớp trừu tượng này.

TRM chỉ sử dụng một mạng hai lớp nhỏ duy nhất. Nó loại bỏ sự tương tự sinh học và sự phụ thuộc vào điểm cố định, làm cho kiến ​​trúc trở nên minh bạch hơn. Mục tiêu là tách biệt cơ chế cốt lõi: cải tiến đệ quy.

Đổi mới cốt lõi là quá trình suy luận của nó. Mô hình bắt đầu bằng một câu trả lời thô và tinh chỉnh nó nhiều lần. Trong mỗi vòng lặp, trước tiên, nó cập nhật “quy trình suy nghĩ” nội bộ trước khi cập nhật câu trả lời cuối cùng, mô phỏng hiệu quả một mạng sâu hơn nhiều mà không tốn chi phí cao.

Vòng lặp tự cải thiện này là một hình thức “giám sát sâu”, trong đó mô hình được đào tạo theo từng bước để tiến gần hơn đến giải pháp chính xác. Điều này cho phép mô hình học các chuỗi suy luận phức tạp, gồm nhiều bước mà thông thường sẽ yêu cầu một mô hình lớn hơn nhiều.

Như tài liệu nghiên cứu giải thích, “quy trình đệ quy này cho phép mô hình cải thiện dần câu trả lời của mình… theo cách cực kỳ hiệu quả về tham số đồng thời giảm thiểu việc trang bị quá mức.” Phương pháp này giúp tăng hiệu suất và tránh các vấn đề mà các mô hình lớn hơn gặp phải trên các tập dữ liệu nhỏ.

Tăng sức mạnh của nó đối với các điểm chuẩn suy luận

Sức mạnh của TRM thể hiện rõ nhất ở các điểm chuẩn được thiết kế để kiểm tra khả năng suy luận AI trừu tượng, một lĩnh vực mà ngay cả những mô hình lớn nhất cũng thường gặp khó khăn. Thành tích nổi bật của nó thuộc về Tóm tắt và Lý luận Corpus (ARC-AGI), một bộ câu đố trực quan đầy thử thách, đơn giản đối với con người nhưng lại cực kỳ khó đối với AI.

Trong phiên bản thử nghiệm đầu tiên, ARC-AGI-1, TRM đã đạt được độ chính xác 45%. Điểm số này vượt qua nhiều đối thủ nặng ký trong ngành, bao gồm Gemini 2.5 Pro của Google (37,0%), o3-mini-high của OpenAI (34,5%) và DeepSeek R1 (15,8%), mặc dù TRM có ít hơn 0,01% tham số của họ.

Lợi thế của mô hình này là dựa trên tiêu chuẩn ARC-AGI-2 thậm chí còn khó khăn hơn. Tại đây, TRM đạt 7,8%, một lần nữa đánh bại 4,9% của Gemini 2.5 Pro và 3,0% của o3-mini-high. Mặc dù những điểm số tuyệt đối này có vẻ thấp nhưng chúng thể hiện một bước nhảy vọt đáng kể so với một tiêu chuẩn mà tiến độ có tiếng là chậm.

Xét theo bối cảnh, bảng xếp hạng hiện tại đứng đầu là các mô hình tiên phong lớn như Grok 4 của xAI, nhưng hiệu suất của TRM chỉ với 7 triệu thông số khiến nó trở nên ấn tượng ngoại lệ, làm nổi bật tính hiệu quả của kiến trúc của nó.

Sự thống trị của mô hình mở rộng sang các lĩnh vực logic khác, nơi các mô hình lớn thường chùn bước. Trên Sudoku-Extreme, một tập dữ liệu gồm các câu đố khó chỉ có 1.000 ví dụ huấn luyện, TRM đã lập kỷ lục mới hiện đại khi đạt được độ chính xác 87,4%. Điều này thể hiện sự cải thiện lớn so với mức 55% mà người tiền nhiệm HRM của nó ghi được.

Tương tự, trên điểm chuẩn Maze-Hard, bao gồm việc tìm các đường đi dài qua các lưới 30×30 phức tạp, TRM đạt 85,3%. Những kết quả này trên nhiều miền logic riêng biệt chứng minh sức mạnh của phương pháp đệ quy trong việc giải quyết vấn đề có cấu trúc.

‘Ít hơn là nhiều hơn’: Một triết lý mới cho AI hiệu quả

Có lẽ là hầu hết đáng chú ý là hiệu quả của mô hình. Nhà nghiên cứu đã xác nhận rằng toàn bộ mô hình đã được đào tạo chỉ trong hai ngày trên bốn GPU NVIDIA H-100 với giá dưới 500 USD. Điều này trái ngược với các hoạt động đào tạo trị giá hàng triệu đô la cần thiết cho các LLM biên giới ngày nay.

<500$, 4 H-100 trong khoảng 2 ngày

— Alexia Jolicoeur-Martineau (@jm_alexia) Ngày 7 tháng 10 năm 2025

Jolicoeur-Martineau nhấn mạnh điểm này, nêu rõ, “với đệ quy lý luận, hóa ra’ít hơn là nhiều hơn’. Một mô hình nhỏ được đào tạo trước từ đầu… có thể đạt được nhiều thành tựu mà không tốn nhiều tiền.”Hiệu quả về mặt chi phí này dân chủ hóa nghiên cứu AI tiên tiến.

Việc phát hiện ra rằng mạng hai lớp nhỏ hơn hoạt động tốt hơn các phiên bản lớn hơn cũng thách thức các luật mở rộng quy mô thông thường. Bài viết gợi ý điều này là do độ sâu đệ quy giúp ngăn chặn việc trang bị quá mức, một vấn đề thường gặp khi đào tạo các mô hình lớn trên dữ liệu hạn chế.

Kỹ sư nghiên cứu AI Sebastian Raschka nhận xét về hiệu quả và lưu ý rằng, “vâng, vẫn có thể thực hiện những điều thú vị mà không cần trung tâm dữ liệu.”

Từ Mô hình lý luận phân cấp (HRM) đến Mô hình đệ quy nhỏ mới (TRM).

Vài tháng trước, HRM đã tạo nên làn sóng lớn trong cộng đồng nghiên cứu AI vì nó cho thấy hiệu suất thực sự tốt trước thử thách ARC mặc dù quy mô nhỏ 27 triệu. (Nhỏ hơn khoảng 22 lần so với… pic.twitter.com/YhMpn4hlxi

— Sebastian Raschka (@rasbt) Ngày 8 tháng 10 năm 2025

Dự án là trên GitHub theo giấy phép MIT cho phép, cho phép sử dụng thương mại và khuyến khích áp dụng rộng rãi hơn.

Một bộ giải chuyên biệt, không phải là một nhà tổng quát

Điều quan trọng là phải hiểu bối cảnh của TRM. Mô hình này là một bộ giải có tính chuyên môn cao, không phải là một chatbot đa năng như những chatbot dựa trên mô hình của OpenAI hay Google. Hiệu suất của nó được giới hạn ở các tác vụ có cấu trúc, dựa trên lưới trong đó phương pháp đệ quy của nó vượt trội.

Chuyên môn hóa này là một tính năng, không phải là một lỗi. Như Deedy Das, một đối tác tại Menlo Ventures, đã nhận xét, “hầu hết các công ty AI ngày nay đều sử dụng LLM có mục đích chung với việc nhắc nhở các nhiệm vụ. Đối với các nhiệm vụ cụ thể, các mô hình nhỏ hơn có thể không chỉ rẻ hơn mà còn có chất lượng cao hơn nhiều!”

Bài viết TRM giống như một bước đột phá đáng kể về AI.

Nó phá hủy ranh giới pareto trên điểm chuẩn ARC AGI 1 và 2 (và giải Sudoku và Mê cung) với chi phí ước tính <0,01 USD cho mỗi nhiệm vụ và chi phí <500 USD để đào tạo mô hình 7 triệu trên 2 H100 cho 2 ngày.

[Thông tin cụ thể về đào tạo và kiểm tra]… pic.twitter.com/9c31HdxiLy

— Deedy (@deedydas) Ngày 9 tháng 10 năm 2025

Trọng tâm này có nghĩa là TRM sẽ không làm thơ hay tổng kết các cuộc họp. Tuy nhiên, thành công của nó mang lại một sức mạnh bằng chứng về khái niệm cho doanh nghiệp. Nó gợi ý rằng một nhóm các mô hình chuyên nghiệp nhỏ có thể hoạt động hiệu quả hơn so với một mô hình tổng quát nguyên khối duy nhất.

Trong khi cộng đồng AI ca ngợi sự đổi mới, một số người lại lưu ý đến phạm vi hẹp. Sự đồng thuận là mặc dù TRM không phải là một dạng thông tin tổng quát nhưng thông điệp của nó rất rộng: đệ quy cẩn thận, không chỉ mở rộng liên tục, có thể thúc đẩy làn sóng lý luận tiếp theo nghiên cứu.

Categories: IT Info