QUICK REVIEW

[論文レビュー] Less is More: Recursive Reasoning with Tiny Networks

Alexia Jolicoeur‐Martineau|ArXiv.org|Oct 6, 2025

Semantic Web and Ontologies被引用数 4

ひとこと要約

この論文は Tiny Recursive Models (TRM) を提案する。単一の小さなネットワークが潜在推論を再帰的に洗練させ、HRM（階層的推論モデル）よりはるかに少ないパラメータでパズルの一般化性能を向上させる。

ABSTRACT

Hierarchical Reasoning Model (HRM) is a novel approach using two small neural networks recursing at different frequencies. This biologically inspired method beats Large Language models (LLMs) on hard puzzle tasks such as Sudoku, Maze, and ARC-AGI while trained with small models (27M parameters) on small data (around 1000 examples). HRM holds great promise for solving hard problems with small networks, but it is not yet well understood and may be suboptimal. We propose Tiny Recursive Model (TRM), a much simpler recursive reasoning approach that achieves significantly higher generalization than HRM, while using a single tiny network with only 2 layers. With only 7M parameters, TRM obtains 45% test-accuracy on ARC-AGI-1 and 8% on ARC-AGI-2, higher than most LLMs (e.g., Deepseek R1, o3-mini, Gemini 2.5 Pro) with less than 0.01% of the parameters.

研究の動機と目的

極めて小さなネットワークと限られたデータで難解な推論タスクの解決を動機づける。
Sudoku-Extreme、Maze-Hard、ARC-AGI ベンチマークでHRMを上回る簡易化された再帰的アプローチ（TRM）を提示する。
モデルサイズを削減し階層的/生物学的正当化を排除することで一般化を改善できることを示す。
深部監督と簡略化されたACT（適応計算時間）を含む完全な再帰の有効性を示す。
データ不足下でスケールする実用的な設計選択肢（固定点仮定なし、単一ネットワーク、注意機構なしオプション）を提供する。

提案手法

TRM を提案する：単一の2層ネットワークが、潜在推論 z と提案解 y を監督ステップ全体で再帰的に洗練させる。
深部監督を用いて、すべてのステップをさかのぼってバックプロパゲーションせずに潜在特徴を次のステップへ伝える。
HRM の二ネットワーク階層を、潜在の洗練と解更新の両方を1つのネットワークが実行する構造に置き換える。
全再帰（fL の n 回評価と fH の 1 回評価）を監督ステップ全体で適用し、固定点定理や1ステップ勾配近似への依存を排除する。
訓練中にACTを組み込み、停止判定と次データサンプルを決定して前方伝播を削減する。
自己注意の代わりに系列長に対するMLPを用いて、コンテキスト長が小さく固定されているタスクに対する注意機構なしのアーキテクチャを探索する。
TRM を EMAつき/なし、ACT継続ロスあり/なしで評価し、Sudoku-Extreme、Maze-Hard、ARC-AGI-1、ARC-AGI-2 のHRMおよびLLMベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1再帰的推論を持つ単一の小さなネットワークで、HRMより難解なパズルタスクで一般化を改善できるか。
RQ2固定点/IFT ベースの勾配近似を排除し、アーキテクチャを単純化することが性能とデータ効率に与える影響は。
RQ3深さ、特徴量 y と z、注意機構 vs MLP といったアーキテクチャの選択は、限られたデータ下での一般化にどう影響するか。
RQ4ACT（適応計算時間）は必要か、停止を簡略化しても性能を損なわないか。
RQ5TRM は Sudoku、Maze、ARC-AGI ベンチマークで LLM と比較してどこまでの限界を持つか。

主な発見

手法	精度（%）	深さ	NFP	パラメータ数
HRM	55.0	24	2	27M
TRM (T=3,n=6)	87.4	42	1	5M
w/ ACT	86.1	42	2	5M
w/ separate fH,fL	82.4	42	1	10M
no EMA	79.9	42	1	5M
w/ 4-layers, n=3	79.5	48	1	10M
w/ self-attention	74.7	42	1	7M
w/ T=2,n=2	73.7	12	1	5M
w/ 1-step gradient	56.5	42	1	5M

TRM は T=3, n=6 で Sudoku-Extreme のテスト精度 87.4% を達成し、HRMとベースラインを上回った。
TRM（2層、パラメータ5M）は Sudoku-Extreme で 87.4%、実効深さ 42、最適化ステップごとに1回の前方伝播；ACTとEMAが性能をさらに向上。
自己注意なしのTRM（注意機構なし）は Sudoku-Extreme の結果を 87.4% に改善し、自己注意付きTRMは大規模なグリッドで良好な結果を示す（Maze-Hard: 85.3%、ARC-1: 44.6%、ARC-2: 7.8%）。
HRM（27Mパラメータ）と比較して、TRM はほぼ5分の1のパラメータでより高い精度を達成（例：Sudoku-Extreme: 87.4% 対 HRM の 55.0%）。
単一ネットワークで十分（fLとfHを別々にしない）、層を減らして再帰を増やすと一般化が向上（2層が最適）。
ACT の2回目の前方伝播を削除する継続ロスは性能を大幅に損なわず、EMAは小データでの訓練安定化と一般化を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。