モントリオールのサムスン AI 研究者は、その重量をはるかに上回る小型 AI モデルを作成し、大規模化を重視する業界に挑戦しました。今週リリースされた 700 万パラメータの Tiny Recursive Model (TRM) は、難しい推理パズルにおいて Google の Gemini 2.5 Pro のような巨大モデルよりも優れたパフォーマンスを発揮します。
このモデルは Alexia Jolicoeur-Martineau によって開発され、で詳しく説明されています。 arXiv で公開された論文は、巧妙なデザインが純粋なサイズよりも重要である可能性があることを証明することを目的としています。シンプルな「再帰的」プロセスを使用してループで思考し、自身の答えを改善し、より効率的なイノベーションへの道を提供します。
このアプローチは、AI の難しい問題を解決するための巨大でコストのかかるモデルの必要性に疑問を投げかけます。ジョリクール・マルティノーが述べたように、「困難な課題を解決するために、大企業が何百万ドルもかけて訓練した大規模な基礎モデルに依存しなければならないという考えは罠です。」このリリースは、より小型で特化したモデルへの動きが高まっていることを示しています。
複雑な階層から再帰的単純さへ
TRM は、階層推論モデル (HRM) から進化していますが、その設計は根本的に簡素化されています。今年初めに導入された HRM は、異なる周波数で動作する 2 つの別々のネットワークを使用しました。この概念は、その作成者が人間の脳に関する複雑な生物学的議論によって正当化した概念です。
このアプローチは、学習プロセスを管理するために暗黙の関数定理などの高度な数学的原理にも依存しているため、解析が困難でした。 Jolicoeur-Martineau の作品では、これらの抽象化レイヤーが取り除かれています。
TRM は、単一の小さな 2 レイヤー ネットワークのみを使用します。生物学的な類似性や固定小数点の依存関係が不要になり、アーキテクチャがより透明になります。目標は、中核となるメカニズム、つまり再帰的改善を分離することでした。
中核となるイノベーションはその推論プロセスです。モデルは大まかな答えから始まり、それを繰り返し改良していきます。各ループでは、最終的な答えを更新する前に、まず内部の「思考プロセス」を更新し、高コストをかけずにより深いネットワークを効果的にシミュレートします。
この自己改善ループは「深い監視」の一種であり、正しい解決策に近づくために各ステップでモデルがトレーニングされます。これにより、通常ははるかに大規模なモデルが必要となる、複雑な複数ステップの推論チェーンを学習できるようになります。
研究論文では、「この再帰的なプロセスにより、モデルは、過学習を最小限に抑えながら、非常にパラメーター効率の高い方法で、徐々に答えを改善することができます。」と説明されています。この方法によりパフォーマンスが向上し、小規模なデータセットで大規模なモデルが直面する問題が回避されます。
推論ベンチマークでの性能を上回るパフォーマンス
TRM の能力は、抽象的な AI 推論をテストするように設計されたベンチマークで最も顕著に表れます。この領域は、最大のモデルでもしばしば困難を伴います。その傑出した成果は、人間にとっては簡単でも、AI にとっては非常に難しいことで知られる、やりがいのあるビジュアル パズルのスイートである Abstract and Reasoning Corpus (ARC-AGI) で実現しました。
テストの最初のバージョンである ARC-AGI-1 では、TRM は 45% の精度を達成しました。 TRM のパラメータが 0.01% 未満であるにもかかわらず、このスコアは、Google の Gemini 2.5 Pro (37.0%)、OpenAI の o3-mini-high (34.5%)、DeepSeek R1 (15.8%) など、業界の有力製品の多くを上回っています。
このモデルの利点は、さらに難しい ARC-AGI-2 ベンチマークでも維持されます。ここで、TRM のスコアは 7.8% で、やはり Gemini 2.5 Pro の 4.9% と o3-mini-high の 3.0% を上回りました。これらの絶対スコアは低いように見えるかもしれませんが、進歩が遅いことで悪名高いベンチマークにおいては大幅な進歩を表しています。
文脈として、現在のリーダーボードのトップは xAI の Grok 4 などの大規模なフロンティア モデルですが、わずか 700 万のパラメータによる TRM のパフォーマンスにより、このスコアは 劇的な異常値であり、そのアーキテクチャの効率性が強調されています。
モデルの優位性は、大規模なモデルがしばしば失敗する他の論理ドメインにも及びます。わずか 1,000 個のトレーニング例を含む難しいパズルのデータセットである Sudoku-Extreme で、TRM は 87.4% の精度を達成し、最先端の新記録を樹立しました。これは、前世代の HRM のスコア 55% を大きく上回る大幅な改善を示しています。
同様に、複雑な 30×30 グリッドを通る長いパスを見つける必要がある Maze-Hard ベンチマークでは、TRM のスコアは 85.3% でした。複数の異なる論理ドメインにわたるこれらの結果は、構造化された問題解決に対する再帰的アプローチの威力を実証しています。
「Less is More」: 効率的な AI のための新しい哲学
おそらくほとんどの 注目すべきはモデルの効率です。研究者が確認したところによると、モデル全体は 500 ドル未満で 4 つの NVIDIA H-100 GPU を使用してわずか 2 日間でトレーニングされました。これは、今日のフロンティア LLM に必要な数百万ドルのトレーニングとは対照的です。
<500$、約 2 日間 4 H-100
— Alexia Jolicoeur-Martineau (@jm_alexia) 2025 年 10 月 7 日
ジョリクール・マルティノー氏はこの点を強調し、次のように述べた。 再帰的に推論すると、「少ないほど良い」ことがわかります。ゼロから事前トレーニングされた小さなモデルは、大金を掛けずに多くのことを達成できます。」この費用対効果により、最先端の AI 研究が民主化されます。
小規模の 2 層ネットワークが大規模バージョンよりも優れたパフォーマンスを示したという発見は、従来のスケーリングの法則にも疑問を投げかけます。論文では、これは再帰的な深さが、限られたデータで大規模なモデルをトレーニングする際によくある問題である過学習を防ぐのに役立つためであると示唆しています。
AI 研究エンジニアのセバスチャン・ラシュカ氏は効率性についてコメントし、「はい、データセンターなしでも素晴らしいことを行うことは可能です。」
階層推論モデル (HRM) から新しい小型再帰モデルへ (TRM)。
数か月前、HRM は 27M という小さなサイズにもかかわらず、ARC チャレンジで非常に優れたパフォーマンスを示したため、AI 研究コミュニティに大きな話題を呼びました。 (これは、以前の 22 分の 1 です… pic.twitter.com/YhMpn4hlxi
— Sebastian Raschka (@rasbt) 2025 年 10 月 8 日
プロジェクトは 寛容な MIT ライセンスに基づいて GitHub 上で使用できるため、商用利用が許可され、より幅広い採用が促進されます。
ジェネラリストではなく特化したソルバー
TRM を理解することが重要です。 コンテキスト。このモデルは高度に特殊化されたソルバーであり、OpenAI や Google のモデルに基づくような汎用チャットボットではありません。そのパフォーマンスは、再帰的メソッドが優れている構造化されたグリッドベースのタスクに限定されます。
この特殊化は機能であり、バグではありません。 Menlo Ventures のパートナーである Deedy Das 氏は次のように述べています。「今日のほとんどの AI 企業は、タスクのプロンプトを備えた汎用 LLM を使用しています。
TRM の論文は AI の大きな進歩のように感じられます。
タスクあたりの estd コストが 0.01 ドル未満、2 つの H100 で 7M モデルをトレーニングするコストが 500 ドル未満で、ARC AGI 1 および 2 ベンチマーク (および数独と迷路の解決) でパレート フロンティアを破壊します。 2 日間。
[トレーニングとテストの詳細]… pic.twitter.com/9c31HdxiLy
— Deedy (@deedydas) 2025 年 10 月 9 日
この焦点は、TRM が詩を書いたり会議を要約したりしないことを意味します。しかし、その成功は強力な効果をもたらします。 企業向けの概念実証。これは、小規模なエキスパート モデルのフリートが、単一のモノリシックなジェネラリスト モデルよりも効果的かつ効率的である可能性があることを示唆しています。
AI コミュニティはこのイノベーションを賞賛していますが、領域が狭いと指摘する人もいます。 TRM は一般的な知能の一種ではありませんが、そのメッセージは幅広く、単に継続的に拡張するだけでなく、注意深い再帰が推論研究の次の波を推進する可能性があるというのがコンセンサスです。