Skip to main content
QUICK REVIEW

[論文レビュー] SpiralFormer: Looped Transformers Can Learn Hierarchical Dependencies via Multi-Resolution Recursion

Chengting Yu, Xiaobo Shu|arXiv (Cornell University)|Feb 12, 2026
Advanced Neural Network Applications被引用数 0
ひとこと要約

tldr: SpiralFormer はループ化 Transformers に多解像度再帰を導入し、階層的でスケール依存の依存関係を可能にし、160M–1.4B のスケール全体でループ済みおよび非ループ基準よりも効率を改善します。

ABSTRACT

Recursive (looped) Transformers decouple computational depth from parameter depth by repeatedly applying shared layers, providing an explicit architectural primitive for iterative refinement and latent reasoning. However, early looped Transformers often underperform non-recursive baselines of equal compute. While recent literature has introduced more effective recursion mechanisms to mitigate this gap, existing architectures still operate at a fixed, full-token resolution, neglecting the potential efficiency of computing over compressed latent representations. In this paper, we propose SpiralFormer, a looped Transformer that executes recurrence under a multi-resolution recursion schedule. We provide probing evidence that multi-resolution recursion enables the model to learn hierarchical dependencies by inducing iteration-wise functional specialization across different scales. Empirically, SpiralFormer achieves better parameter and compute efficiency than both looped and non-looped baselines across model scales from 160M to 1.4B, establishing sequence resolution as a potential axis for scaling recursive architectures.

研究の動機と目的

  • 多解像度再帰がループ型 Transformers に階層的依存関係を学習させるかを調査する。
  • Token を潜在スロットに圧縮し、再帰内で解像度を跨いで動作する SpiralFormer を開発する。
  • 粗から細へ共通コア再帰が、全解像度ループよりも計算/パラメータ効率を改善することを示す。
  • モデル規模(160M–1.4B)全般で、多解像度再帰が性能と効率を改善する実証的証拠を提供する。

提案手法

  • Middle-cycle アーキテクチャを採用し、プレ/ループ/ポストブロックと共有ループコアを用いる。
  • 共通コアで処理するためにチャンクレベルの潜在表現へダウンサンプリングし、再度トークン長へアップサンプリングして、右シフトによる厳密な自己回帰因果性を導入する、という多解像度再帰を導入する。
  • 反復中の有効シーケンス長 L_t を変える解像度スケジュール {r_t} を定義する。
  • MeSH または Anchor トポロジ更新を用いて各反復の更新を実行状態に融合する。
  • チャンク化、オフセット、アテンションベースの下/上スケーリング機構を用いた因果的なダウン/アップスケーリングを実装する。
  • Pythia 系列の前処理デコーダー風 Transformer を用いて予訓練を評価し(160M–1.4B)、Baseline および LoopedFormer と計算資源とパラメータ予算の観点で比較する。

実験結果

リサーチクエスチョン

  • RQ1多解像度再帰は、全解像度のループでは捉えられない階層的依存関係をループ型 Transformers に学習させるか。
  • RQ2圧縮潜在表現上で動作する共通コアは、伝統的なループ型または非ループ型アーキテクチャよりもパラメータと計算効率を改善できるか。
  • RQ3解像度スケジュールはモデルの性能とスケーリング挙動にどのような影響を与えるか。
  • RQ4spiralFormer における再帰比率は検証損失と容量にどのような影響を及ぼすか。
  • RQ5解像度が増すにつれてループ反復間の注意パターンは整合的にシフトし、階層的推論を示すか。

主な発見

ModelConfigParams (M) (Total/Non-Emb)FLOPs (1e12) (4096 Prefill)Perplexity ↓Task Acc ↑0-shot5-shotPileWikiLD-OLD-S
Pythia-160MBaseline (Pythia)163.5 / 85.11.6511.3130.3242.86175.6239.8840.54
LoopedFormer *2+4×{1,1}+2135.2 / 56.71.6511.6331.6950.38195.1138.8140.15
LoopedFormer †2+4×{1,1}+2135.2 / 56.71.6511.3730.4346.60178.7739.4140.60
SpiralFormer-B †2+4×{1/8,1/4,1/2,1}+2135.2 / 56.81.4811.2930.2743.27155.7839.7341.02
SpiralFormer-L †4+4×{1/16,1/8,1/4,1/2}+4163.6 / 85.11.4910.9428.8541.24147.5239.3041.37
Pythia-410MBaseline (Pythia)407.4 / 302.34.599.0721.7919.4865.8643.8745.31
LoopedFormer *4+8×{1,1}+4306.7 / 201.54.599.1922.1220.3752.5543.7045.68
LoopedFormer †4+8×{1,1}+4306.7 / 201.64.599.0921.8419.6342.5144.1245.56
SpiralFormer-B *4+8×{1/8,1/4,1/2,1}+4306.7 / 201.64.109.1322.0421.9647.3343.8746.30
SpiralFormer-B †4+8×{1/8,1/4,1/2,1}+4306.8 / 201.64.119.0021.4819.1139.7844.3146.75
SpiralFormer-L †8+8×{1/16,1/8,1/4,1/2}+8407.5 / 302.44.168.7320.5520.3847.8944.9747.06
Pythia-1BBaseline (Pythia)1020.2 / 805.79.677.9617.6613.5333.6546.9549.07
LoopedFormer *3+5×{1,1}+3768.4 / 553.99.678.1018.1513.3232.3446.7348.83
LoopedFormer †3+5×{1,1}+3768.4 / 554.09.677.9017.5412.1926.7147.5349.51
SpiralFormer-B †3+5×{1/8,1/4,1/2,1}+3768.6 / 554.18.957.8017.2111.9625.5548.1450.25
SpiralFormer-L †5+6×{1/16,1/8,1/4,1/2}+51020.4 / 805.98.967.6416.7311.9423.9048.9751.83
Pythia-1.4BBaseline (Pythia)1423.0 / 1208.614.087.4415.9710.5122.8149.5051.93
Baseline †24 Layers1423.1 / 1208.714.087.2615.259.4616.3150.2153.12
LoopedFormer *4+8×{1,1}+41020.2 / 805.714.087.5116.2510.7119.3749.3951.27
LoopedFormer †4+8×{1,1}+41020.2 / 805.814.087.3915.849.7219.3950.5652.79
SpiralFormer-B †4+8×{1/8,1/4,1/2,1}+41020.4 / 805.912.927.3015.619.0615.3051.4853.22
SpiralFormer-L †8+8×{1/16,1/8,1/4,1/2}+81423.2 / 1208.813.137.1415.039.7314.4251.7554.37
  • SpiralFormer は、160M–1.4B スケール全体で、ループ済みおよび非ループのベースラインよりもパラメータと計算効率を改善する。
  • 粗から細への多解像度スケジュールは、FLOPs を一貫して削減し(特定サイズで約7–11%)、困難度指標(パープレキシティ)と下流の精度を維持または改善する。
  • 一致したパラメータ数で、SpiralFormer-L は FLOPs を約3–10%削減し、パープレキシティと少数-shot 精度を改善する(例:1.4B: 14.08→13.13 FLOPs; 51.93→54.37 5-shot)。
  • アテンションプローブはループ間のクロスシフトを示し、高解像度ループはより選択的(エントロピー低下)となり、局所性が強化される(Local Attention Mass の増加)。
  • 完全解像度の LoopedFormer ではループ間の注意ダイナミクスが弱く、階層的パターンは単なるループではなく多解像度設計に結びついていることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。