QUICK REVIEW

[论文解读] Less is More: Recursive Reasoning with Tiny Networks

Alexia Jolicoeur‐Martineau|ArXiv.org|Oct 6, 2025

Semantic Web and Ontologies被引用 4

一句话总结

该论文提出了 Tiny Recursive Models (TRM)，一个单一的小型网络通过潜在推理进行递归地 refinement 回答，在比以前的分层推理模型（HRM）少得多的参数下，在谜题任务上实现了更优的泛化。

ABSTRACT

Hierarchical Reasoning Model (HRM) is a novel approach using two small neural networks recursing at different frequencies. This biologically inspired method beats Large Language models (LLMs) on hard puzzle tasks such as Sudoku, Maze, and ARC-AGI while trained with small models (27M parameters) on small data (around 1000 examples). HRM holds great promise for solving hard problems with small networks, but it is not yet well understood and may be suboptimal. We propose Tiny Recursive Model (TRM), a much simpler recursive reasoning approach that achieves significantly higher generalization than HRM, while using a single tiny network with only 2 layers. With only 7M parameters, TRM obtains 45% test-accuracy on ARC-AGI-1 and 8% on ARC-AGI-2, higher than most LLMs (e.g., Deepseek R1, o3-mini, Gemini 2.5 Pro) with less than 0.01% of the parameters.

研究动机与目标

用极小的网络和有限数据来激发解决高难度推理任务的动力。
提出一种简化的递归方法（TRM），在 Sudoku-Extreme、Maze-Hard 和 ARC-AGI 基准测试上超越前沿HRM方法。
展示减少模型规模并去除分层/生物学理由如何提高泛化能力。
证明在深度监督和简化的自适应计算时间（ACT）下实现完整递归的有效性。
给出在数据稀缺情形下可扩展的实际设计选择（无定点假设、单一网络、可选无注意力）。

提出的方法

提出 Tiny Recursive Model (TRM)：一个单一的两层网络，在监督步骤中递归地 refinement 潜在推理(z) 和提议解(y)。
使用深度监督在各步骤之间传递潜在特征，而无需对所有步骤进行反向传播。
用一个网络同时执行潜在 refinement 和解更新，取代 HRM 的双网络层级结构。
在监督步骤中应用完整的递归（对 fL 进行 n 次求值、对 fH 进行 1 次求值），移除对定点定理和1步梯度近似的依赖。
在训练中引入自适应计算时间（ACT），以决定停止与下一个数据样本，从而减少前向传递次数。
通过在序列长度上使用多层感知机（MLP）替代自注意力，探索无注意力架构以适应小、固定上下文长度的任务。
在 Sudoku-Extreme、Maze-Hard、ARC-AGI-1、ARC-AGI-2 上评估 TRM，比较带/不带 EMA、带/不带 ACT 连续损失，以及对比 HRM 和 LLM 基线。

实验结果

研究问题

RQ1一个单一的小型网络结合递归推理是否能够在困难谜题任务上实现比 HRM 更好的泛化？
RQ2移除定点/IFT 基梯度近似并简化架构对性能与数据效率有何影响？
RQ3架构选择（深度、特征 y 和 z、注意力与 ML P）在有限数据下如何影响泛化？
RQ4自适应计算时间（ACT）是否必要，减小停止条件是否会损害性能？
RQ5与大型语言模型相比，TRM 在 Sudoku、Maze 和 ARC-AGI 基准上的极限是什么？

主要发现

Method	Acc (%)	Depth	NFP	# Params
HRM	55.0	24	2	27M
TRM (T=3,n=6)	87.4	42	1	5M
w/ ACT	86.1	42	2	5M
w/ separate fH,fL	82.4	42	1	10M
no EMA	79.9	42	1	5M
w/ 4-layers, n=3	79.5	48	1	10M
w/ self-attention	74.7	42	1	7M
w/ T=2,n=2	73.7	12	1	5M
w/ 1-step.gradient	56.5	42	1	5M

TRM 在 T=3、n=6 时对 Sudoku-Extreme 的测试准确率达到 87.4%，超过 HRM 和基线。
TRM（2 层、5M 参数）在 Sudoku-Extreme 上达到 87.4% 的准确率，等效深度为 42，且每次优化步骤只有一次前向传播；ACT 与 EMA 进一步提升性能。
在无自注意力的情况下，TRM 的 Sudoku-Extreme 结果提升至 87.4%，而带自注意力的 TRM 在更大网格上表现出色（Maze-Hard: 85.3%，ARC-1: 44.6%，ARC-2: 7.8%）。
与 HRM（27M 参数）相比，TRM 以大约五分之一的参数实现更高的准确率（例如 Sudoku-Extreme：87.4% 对 55.0%）。
单一网络即可胜任（无分离的 fL 和 fH），并且在减少层数的同时增加递归次数可提升泛化（2 层为最优）。
移除 ACT 的第二次前向传递（continue 损失）对性能影响不显著。 EMA 稳定训练并在小数据下提升泛化效果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。