Skip to main content
QUICK REVIEW

[論文レビュー] Tiny Recursive Reasoning with Mamba-2 Attention Hybrid

Wenlong Wang, Fergal Reid|arXiv (Cornell University)|Feb 12, 2026
Advanced Graph Neural Networks被引用数 0
ひとこと要約

この論文は tiny recursive reasoning model (TRM) 内の Transform er ブロックを Mamba-2 ハイブリッド演算子に置換し、ARC-AGI-1 pass@2 のカバレッジ拡大と高-K カバレッジを示す一方、pass@1 は類似のまま保ち、tiny モデルにおける Mamba-2 を実用的な再帰演算子として検証する。

ABSTRACT

Recent work on recursive reasoning models like TRM demonstrates that tiny networks (7M parameters) can achieve strong performance on abstract reasoning tasks through latent recursion -- iterative refinement in hidden representation space without emitting intermediate tokens. This raises a natural question about operator choice: Mamba-2's state space recurrence is itself a form of iterative refinement, making it a natural candidate for recursive reasoning -- but does introducing Mamba-2 into the recursive scaffold preserve reasoning capability? We investigate this by replacing the Transformer blocks in TRM with Mamba-2 hybrid operators while maintaining parameter parity (6.83M vs 6.86M parameters). On ARC-AGI-1, we find that the hybrid improves pass@2 (the official metric) by +2.0\% (45.88\% vs 43.88\%) and consistently outperforms at higher K values (+4.75\% at pass@100), whilst maintaining pass@1 parity. This suggests improved candidate coverage -- the model generates correct solutions more reliably -- with similar top-1 selection. Our results validate that Mamba-2 hybrid operators preserve reasoning capability within the recursive scaffold, establishing SSM-based operators as viable candidates in the recursive operator design space and taking a first step towards understanding the best mixing strategies for recursive reasoning.

研究の動機と目的

  • Mamba-2 状態空間再発を TRM のブロックに置換して、能力喪失なく Tiny モデルで再帰推論を可能にできるかを調べる。
  • Mamba-2 ハイブリッドが抽象推論ベンチマーク (ARC-AGI-1) および Sudoku、Maze などの他タスクに与える影響を評価する。
  • 演算子の選択が潜在的な候補カバレッジとトップ-1 選択の間の関係にどう影響するかを特徴づける。

提案手法

  • 3 つの外部サイクルと 4–6 の内部サイクル、同じ潜在状態 z_H および z_L のまま、TRM 再帰構造を保持する。
  • 逐次 Transformer ブロックを 2 種の変種で Mamba-2 ハイブリッドスタックに置換する:TR-mamba2attn (Mamba-2 → Mamba-2 → Attention → MLP) および TR-mamba2mlpt (Mamba-2 → Mamba-2 → MLP-t)。
  • 元の TRM-attn に概ね同じパラメータになるように設定して演算子の効果を分離する(約 6.83M 対 6.86M)。
  • 再帰計算を安定化させるため Post-norm (RMSNorm) を使用する。
  • ARC-AGI-1、Sudoku-Extreme、Maze-30x30-Hard を pass@K (K ∈ {1,2,5,10,100,1000}) および適用可能な場合は厳密な正確性で評価する。

実験結果

リサーチクエスチョン

  • RQ1Mamba-2 ハイブリッド演算子は TRM ライクな再帰スキャフォールドで推論能力を保持できるか。
  • RQ2Mamba-2 ハイブリッドは候補カバレッジ(より大きな K の pass@K)を改善し、トップ-1 精度を犠牲にしないか。
  • RQ3Attention ベースの TRM と比較して Sudoku や Maze などの他の推論タスクで Mamba-2 ハイブリッドはどう機能するか。
  • RQ4再帰推論におけるカバレッジと選択のトレードオフはどうなるか。

主な発見

ModelParamspass@1pass@2pass@5pass@10pass@100pass@1000
TRM-attn6.83M40.7543.8849.2552.1360.5065.50
TR-mamba2attn6.86M40.5045.8851.8854.5065.2569.75
  • ARC-AGI-1 ではハイブリッドが pass@2 を 2.0 ポイント改善(45.88% 対 43.88%)。
  • ハイブリッドは高い K 値で一貫して有効で、pass@100 で +4.75%、トップ-1 精度は parity を維持(−0.25%)。
  • Sudoku-Extreme は MLP-t 系で有利となり、TRM-mlp-t が 87.4% の精度、TR-mamba2mlpt が 84.2% で、Attention ベースモデルより高い。
  • Maze-30x30-Hard は不安定さを示し、TR-mamba2attn は 80.6% を達成する一方、MLP-t 系は失敗(0.0%)となり、タスク依存的なハイブリッドの有効性を示唆。
  • ARC-AGI-1 の結果は Mamba-2 ハイブリッドで候補カバレッジが改善され、トップ-1 精度を低下させずに済んだことを示唆。
  • Post-norm は展開ループ全体の安定した再帰に不可欠と強調されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。