Skip to main content
QUICK REVIEW

[논문 리뷰] Less is More: Recursive Reasoning with Tiny Networks

Alexia Jolicoeur‐Martineau|ArXiv.org|2025. 10. 06.
Semantic Web and Ontologies인용 수 4
한 줄 요약

이 논문은 Tiny Recursive Models(TRM)를 소개합니다. 이는 하나의 작은 네트워크가 잠재적 추론을 재귀적으로 다듬어 답을 제시하며, 이전의 계층적 추론 모델(HRM)보다 훨씬 적은 매개변수로 퍼즐에 대한 일반화 성능이 우수합니다.

ABSTRACT

Hierarchical Reasoning Model (HRM) is a novel approach using two small neural networks recursing at different frequencies. This biologically inspired method beats Large Language models (LLMs) on hard puzzle tasks such as Sudoku, Maze, and ARC-AGI while trained with small models (27M parameters) on small data (around 1000 examples). HRM holds great promise for solving hard problems with small networks, but it is not yet well understood and may be suboptimal. We propose Tiny Recursive Model (TRM), a much simpler recursive reasoning approach that achieves significantly higher generalization than HRM, while using a single tiny network with only 2 layers. With only 7M parameters, TRM obtains 45% test-accuracy on ARC-AGI-1 and 8% on ARC-AGI-2, higher than most LLMs (e.g., Deepseek R1, o3-mini, Gemini 2.5 Pro) with less than 0.01% of the parameters.

연구 동기 및 목표

  • 극도로 작은 네트워크와 제한된 데이터로 어렵고 복잡한 추론 문제를 해결하도록 동기를 부여한다.
  • Sudoku-Extreme, Maze-Hard, ARC-AGI 벤치마크에서 기존 HRM 방법을 능가하는 간략화된 재귀적 접근(TRM)을 제시한다.
  • 모델 크기를 축소하고 계층적/생물학적 정당화를 제거하면 일반화가 향상될 수 있음을 시연한다.
  • 깊은 감독과 간소화된 ACT(적응 계산 시간)로 전체 재귀의 효과를 입증한다.
  • 데이터 부족 상황에서도 잘 확장되는 실용적 설계 선택지(고정점 가정 없음, 하나의 네트워크, 주의(attention) 없는 옵션)를 제시한다.]
  • method:["Tiny Recursive Model(TRM)을 제안한다: 잠재 추론(z)과 제안된 해(y)를 지도 학습 단계에서 재귀적으로 다듬는 단일 2-층 네트워크.","모든 단계에 대해 역전파하지 않고도 단계 간 잠재 특징을 전달하기 위해 깊은 감독을 사용한다.","HRM의 두 네트워크 계층 구조를 잠재 정제와 해 업데이트를 모두 수행하는 단일 네트워크로 교체한다.","감독 단계 전반에 걸쳐 전체 재귀(n번의 fL 평가와 1회의 fH)를 적용하고, 고정점 정리와 한 단계 그래디언트 근사를 의존하지 않는다.","학습 중에 Adaptive Computational Time(ACT)를 도입해 중단 여부와 다음 데이터 샘플을 결정하고 순전파를 줄인다.","작고 고정된 맥락 길이를 가진 작업에서 Self-attention 대신 시퀀스 길이에 대한 MLP를 사용하는 주의 없는(attention-free) 아키텍처를 탐색한다.","Sudoku-Extreme, Maze-Hard, ARC-AGI-1, ARC-AGI-2에서 EMA 여부, ACT 계속 손실 여부에 따른 TRM 평가 및 HRM 및 LLM 기준선과의 비교."]
  • research_questions:["하드 퍼즐 태스크에서 재귀적 추론을 갖춘 단일 작은 네트워크가 HRM보다 더 나은 일반화를 달성할 수 있는가?","고정점/IFT 기반 그래디언트 근사를 제거하고 아키텍처를 단순화하는 것이 성능과 데이터 효율성에 미치는 영향은 무엇인가?","깊이, 특징 y와 z, 주의(attention) 대 MLP 등 아키텍처 선택이 제한된 데이터 하에서 일반화에 어떤 영향을 미치는가?","적응 계산 시간(ACT)이 필요한가, 중단을 성능 저하 없이 단순화할 수 있는가?","TRM의 한계는 Sudoku, Maze, ARC-AGI 벤치마크에서 LLM과 비교했을 때 무엇인가?]
  • key_findings:["TRM with T=3, n=6 achieves 87.4% test accuracy on Sudoku-Extreme, outperforming HRM and baselines.","TRM (2-layer, 5M parameters) reaches 87.4% on Sudoku-Extreme, 42-depth effective depth, and 1 forward pass per optimization step; ACT and EMA further boost performance.","TRM without self-attention (attention-free) improves Sudoku-Extreme results to 87.4%, while TRM with self-attention yields strong results on larger grids (Maze-Hard: 85.3%, ARC-1: 44.6%, ARC-2: 7.8%).","Compared to HRM (27M parameters), TRM achieves higher accuracy with roughly one-fifth the parameters (e.g., Sudoku-Extreme: 87.4% vs 55.0% for HRM).","A single network suffices (no separate fL and fH), and reducing layers while increasing recursion improves generalization (2-layer optimal).","Removing the second forward pass in ACT (continue loss) does not significantly harm performance. EMA stabilizes training and improves generalization on small data."]
  • table_headers:["Method","Acc (%)","Depth","NFP","# Params"]
  • table_rows:[["HRM","55.0","24","2","27M"],["TRM (T=3,n=6)","87.4","42","1","5M"],["w/ ACT","86.1","42","2","5M"],["w/ separate fH,fL","82.4","42","1","10M"],["no EMA","79.9","42","1","5M"],["w/ 4-layers, n=3","79.5","48","1","10M"],["w/ self-attention","74.7","42","1","7M"],["w/ T=2,n=2","73.7","12","1","5M"],["w/ 1-step gradient","56.5","42","1","5M"]]}</GeneratedReview> If any field needs adjustment, let me know. />}
  • {
  • }
  • } } } }  } { }
  • } } } }
  • } }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }
  • }

제안 방법

  • Tiny Recursive Model(TRM)을 제안한다: 잠재 추론(z)과 제안된 해(y)를 지도 학습 단계에서 재귀적으로 다듬는 단일 2-층 네트워크.
  • 모든 단계에 대해 역전파하지 않고도 단계 간 잠재 특징을 전달하기 위해 깊은 감독을 사용한다.
  • HRM의 두 네트워크 계층 구조를 잠재 정제와 해 업데이트를 모두 수행하는 단일 네트워크로 교체한다.
  • 감독 단계 전반에 걸쳐 전체 재귀(n번의 fL 평가와 1회의 fH)를 적용하고, 고정점 정리와 한 단계 그래디언트 근사를 의존하지 않는다.
  • 학습 중에 Adaptive Computational Time(ACT)를 도입해 중단 여부와 다음 데이터 샘플을 결정하고 순전파를 줄인다.
  • 작고 고정된 맥락 길이를 가진 작업에서 Self-attention 대신 시퀀스 길이에 대한 MLP를 사용하는 주의 없는(attention-free) 아키텍처를 탐색한다.
  • Sudoku-Extreme, Maze-Hard, ARC-AGI-1, ARC-AGI-2에서 EMA 여부, ACT 계속 손실 여부에 따른 TRM 평가 및 HRM 및 LLM 기준선과의 비교.

실험 결과

연구 질문

  • RQ1하드 퍼즐 태스크에서 재귀적 추론을 갖춘 단일 작은 네트워크가 HRM보다 더 나은 일반화를 달성할 수 있는가?
  • RQ2고정점/IFT 기반 그래디언트 근사를 제거하고 아키텍처를 단순화하는 것이 성능과 데이터 효율성에 미치는 영향은 무엇인가?
  • RQ3깊이, 특징 y와 z, 주의(attention) 대 MLP 등 아키텍처 선택이 제한된 데이터 하에서 일반화에 어떤 영향을 미치는가?
  • RQ4적응 계산 시간(ACT)이 필요한가, 중단을 성능 저하 없이 단순화할 수 있는가?
  • RQ5TRM의 한계는 Sudoku, Maze, ARC-AGI 벤치마크에서 LLM과 비교했을 때 무엇인가?

주요 결과

MethodAcc (%)DepthNFP# Params
HRM55.024227M
TRM (T=3,n=6)87.44215M
w/ ACT86.14225M
w/ separate fH,fL82.442110M
no EMA79.94215M
w/ 4-layers, n=379.548110M
w/ self-attention74.74217M
w/ T=2,n=273.71215M
w/ 1-step gradient56.54215M
  • TRM with T=3, n=6 achieves 87.4% test accuracy on Sudoku-Extreme, outperforming HRM and baselines.
  • TRM (2-layer, 5M parameters) reaches 87.4% on Sudoku-Extreme, 42-depth effective depth, and 1 forward pass per optimization step; ACT and EMA further boost performance.
  • TRM without self-attention (attention-free) improves Sudoku-Extreme results to 87.4%, while TRM with self-attention yields strong results on larger grids (Maze-Hard: 85.3%, ARC-1: 44.6%, ARC-2: 7.8%).
  • Compared to HRM (27M parameters), TRM achieves higher accuracy with roughly one-fifth the parameters (e.g., Sudoku-Extreme: 87.4% vs 55.0% for HRM).
  • A single network suffices (no separate fL and fH), and reducing layers while increasing recursion improves generalization (2-layer optimal).
  • Removing the second forward pass in ACT (continue loss) does not significantly harm performance. EMA stabilizes training and improves generalization on small data.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.