QUICK REVIEW

[論文レビュー] Tiny Recursive Reasoning with Mamba-2 Attention Hybrid

Wenlong Wang, Fergal Reid|arXiv (Cornell University)|Feb 12, 2026

Advanced Graph Neural Networks被引用数 0

ひとこと要約

この論文は tiny recursive reasoning model (TRM) 内の Transform er ブロックを Mamba-2 ハイブリッド演算子に置換し、ARC-AGI-1 pass@2 のカバレッジ拡大と高-K カバレッジを示す一方、pass@1 は類似のまま保ち、tiny モデルにおける Mamba-2 を実用的な再帰演算子として検証する。

ABSTRACT

Recent work on recursive reasoning models like TRM demonstrates that tiny networks (7M parameters) can achieve strong performance on abstract reasoning tasks through latent recursion -- iterative refinement in hidden representation space without emitting intermediate tokens. This raises a natural question about operator choice: Mamba-2's state space recurrence is itself a form of iterative refinement, making it a natural candidate for recursive reasoning -- but does introducing Mamba-2 into the recursive scaffold preserve reasoning capability? We investigate this by replacing the Transformer blocks in TRM with Mamba-2 hybrid operators while maintaining parameter parity (6.83M vs 6.86M parameters). On ARC-AGI-1, we find that the hybrid improves pass@2 (the official metric) by +2.0\% (45.88\% vs 43.88\%) and consistently outperforms at higher K values (+4.75\% at pass@100), whilst maintaining pass@1 parity. This suggests improved candidate coverage -- the model generates correct solutions more reliably -- with similar top-1 selection. Our results validate that Mamba-2 hybrid operators preserve reasoning capability within the recursive scaffold, establishing SSM-based operators as viable candidates in the recursive operator design space and taking a first step towards understanding the best mixing strategies for recursive reasoning.

研究の動機と目的

Mamba-2 状態空間再発を TRM のブロックに置換して、能力喪失なく Tiny モデルで再帰推論を可能にできるかを調べる。
Mamba-2 ハイブリッドが抽象推論ベンチマーク (ARC-AGI-1) および Sudoku、Maze などの他タスクに与える影響を評価する。
演算子の選択が潜在的な候補カバレッジとトップ-1 選択の間の関係にどう影響するかを特徴づける。

提案手法

3 つの外部サイクルと 4–6 の内部サイクル、同じ潜在状態 z_H および z_L のまま、TRM 再帰構造を保持する。
逐次 Transformer ブロックを 2 種の変種で Mamba-2 ハイブリッドスタックに置換する：TR-mamba2attn (Mamba-2 → Mamba-2 → Attention → MLP) および TR-mamba2mlpt (Mamba-2 → Mamba-2 → MLP-t)。
元の TRM-attn に概ね同じパラメータになるように設定して演算子の効果を分離する（約 6.83M 対 6.86M）。
再帰計算を安定化させるため Post-norm (RMSNorm) を使用する。
ARC-AGI-1、Sudoku-Extreme、Maze-30x30-Hard を pass@K (K ∈ {1,2,5,10,100,1000}) および適用可能な場合は厳密な正確性で評価する。

実験結果

リサーチクエスチョン

RQ1Mamba-2 ハイブリッド演算子は TRM ライクな再帰スキャフォールドで推論能力を保持できるか。
RQ2Mamba-2 ハイブリッドは候補カバレッジ（より大きな K の pass@K）を改善し、トップ-1 精度を犠牲にしないか。
RQ3Attention ベースの TRM と比較して Sudoku や Maze などの他の推論タスクで Mamba-2 ハイブリッドはどう機能するか。
RQ4再帰推論におけるカバレッジと選択のトレードオフはどうなるか。

主な発見

Model	Params	pass@1	pass@2	pass@5	pass@10	pass@100	pass@1000
TRM-attn	6.83M	40.75	43.88	49.25	52.13	60.50	65.50
TR-mamba2attn	6.86M	40.50	45.88	51.88	54.50	65.25	69.75

ARC-AGI-1 ではハイブリッドが pass@2 を 2.0 ポイント改善（45.88% 対 43.88%）。
ハイブリッドは高い K 値で一貫して有効で、pass@100 で +4.75%、トップ-1 精度は parity を維持（−0.25%）。
Sudoku-Extreme は MLP-t 系で有利となり、TRM-mlp-t が 87.4% の精度、TR-mamba2mlpt が 84.2% で、Attention ベースモデルより高い。
Maze-30x30-Hard は不安定さを示し、TR-mamba2attn は 80.6% を達成する一方、MLP-t 系は失敗（0.0%）となり、タスク依存的なハイブリッドの有効性を示唆。
ARC-AGI-1 の結果は Mamba-2 ハイブリッドで候補カバレッジが改善され、トップ-1 精度を低下させずに済んだことを示唆。
Post-norm は展開ループ全体の安定した再帰に不可欠と強調されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。