Skip to main content
QUICK REVIEW

[論文レビュー] PRISM: Parallel Residual Iterative Sequence Model

Jie Jiang, Ke Cheng|arXiv (Cornell University)|Feb 11, 2026
Parallel Computing and Optimization Techniques被引用数 0
ひとこと要約

PRISM は並列化可能なアモルタイズド残差最適化フレームワークを導入し、マルチステップ反復精錬を模倣して、線形注目の表現力と、明示的な最適化ベース手法より最大174倍高いスループットを達成します。

ABSTRACT

Generative sequence modeling faces a fundamental tension between the expressivity of Transformers and the efficiency of linear sequence models. Existing efficient architectures are theoretically bounded by shallow, single-step linear updates, while powerful iterative methods like Test-Time Training (TTT) break hardware parallelism due to state-dependent gradients. We propose PRISM (Parallel Residual Iterative Sequence Model) to resolve this tension. PRISM introduces a solver-inspired inductive bias that captures key structural properties of multi-step refinement in a parallelizable form. We employ a Write-Forget Decoupling strategy that isolates non-linearity within the injection operator. To bypass the serial dependency of explicit solvers, PRISM utilizes a two-stage proxy architecture: a short-convolution anchors the initial residual using local history energy, while a learned predictor estimates the refinement updates directly from the input. This design distills structural patterns associated with iterative correction into a parallelizable feedforward operator. Theoretically, we prove that this formulation achieves Rank-$L$ accumulation, structurally expanding the update manifold beyond the single-step Rank-$1$ bottleneck. Empirically, it achieves comparable performance to explicit optimization methods while achieving 174x higher throughput.

研究の動機と目的

  • 長いシーケンスに対する線形注目の表現力 bottleneck を解消する。
  • 効率的な線形モデルと表現力豊かな最適化ベース手法のギャップを埋める。
  • 並列にマルチステップ refinment を可能にするハードウェア意識設計を開発する。
  • Rank Accumulation と Write-Forget Decoupling の原理を理論的に特徴づける。
  • 強力なベースラインと比較して長序列推薦ベンチマークで PRISM を実証的に検証する。

提案手法

  • 忘却ダイナミクスを低ランクに保ちつつ高ランク非線形 refine を injection 項へ押し込む Write-Forget Decoupling を提案する。
  • 入力固定ループ展開アーキテクチャを導入し、短い畳み込みアンカーで S_{t-1}k_t を推定する ShortConv アンカーと、マルチステップ refinements を生成する学習予測子の二段プロキシを用いる。
  • L 個の直交する rank-1 成分の和として高ランク注入 B_t を構築し、ゲート付き残差更新を用いた反復 refine によって B_t を生成する。
  • 状態に依存しない忘却演算子 A_t を維持して並列スキャンの効率を保ちつつ、蓄積された B_t を再帰状態へ注入する。
  • Rank Accumulation を理論的に示し、スペクトルゆらぎ下で忘却成分と注入成分の安定性を分析する。
  • PRISM を Transformers、線形ベースライン、最適化ベースソルバーと比較し、精度とトレーニングスループットを報告する。
Figure 1 : The PRISM Architecture. The framework operates in two phases to approximate the Ideal Non-Linear Solver within a parallelizable linear recurrence. Phase 1 (Input-Anchored Simulation): A ShortConv anchor captures the local pre-activation proxy ( $u_{t}\approx S_{t-1}k_{t}$ ). Parallel pred
Figure 1 : The PRISM Architecture. The framework operates in two phases to approximate the Ideal Non-Linear Solver within a parallelizable linear recurrence. Phase 1 (Input-Anchored Simulation): A ShortConv anchor captures the local pre-activation proxy ( $u_{t}\approx S_{t-1}k_{t}$ ). Parallel pred

実験結果

リサーチクエスチョン

  • RQ1アモルタイズドで入力固定の refined が、TTT のような明示的反復ソルバーと並列性を維持しながら性能を再現できるか。
  • RQ2長序列に対して、明示的最適化ベース手法より高いスループットを達成しつつモデリング忠実度を犠牲にしないか。
  • RQ3反復的高ランク注入が性能に必須であり、その要素(アンカー、ゲイン予測子、反復深度)が意味のある寄与をするか。

主な発見

  • PRISM は難易度の高いベンチマークで explicit iterative solvers や Deep Transformers と同等の性能を達成する。
  • PRISM は学習スループットにおいて explicit optimization-based methods より最大174x 高いスループットを達成する。
  • PRISM は二次型 Transformer へのギャップを狭め、アモルタイズド refined の表現力が大きいことを示唆する。
  • アブレーション研究は、反復深度、非線形性、アンカー、およびゲーティングがすべて性能に意味のある寄与をすることを示す。
  • 機構的探索は、制約下で PRISM が線形ベースラインを上回る非線形タスクを達成しうることを示す。
Figure 2 : Training throughput comparison of 0.13B models on a single H20 GPU.
Figure 2 : Training throughput comparison of 0.13B models on a single H20 GPU.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。