Skip to main content
QUICK REVIEW

[論文レビュー] Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

Keston Aquino-Michaels|arXiv (Cornell University)|Feb 11, 2026
Advanced Memory and Neural Computing被引用数 0
ひとこと要約

エンドツーエンドでの各クエリごとのスパースアテンションゲートの学習は、Q/K/Vがゲーティング信号を吸収してしまうため、ほとんど効果がない。後解析の蒸留(distillation)やデコップリング学習は密集度に近い性能を達成できる一方、ランダム経路選択は学習経路に近い結果と同等になることが多い。

ABSTRACT

Can a transformer learn which attention entries matter during training? In principle, yes: attention distributions are highly concentrated, and a small gate network can identify the important entries post-hoc with near-perfect accuracy. In practice, barely. When sparse attention is trained end-to-end, the model's Q/K/V projections co-adapt to whatever mask is imposed, absorbing the routing signal until learned gates perform little better than frozen random gates. We call this routing absorption and present four independent lines of evidence for it in a controlled 31M-parameter transformer: (1) differentiable soft gating converges to nearly the same perplexity whether the gate is learned or random (48.73 +/- 0.60 vs. 49.83 +/- 0.04 over 3 seeds); (2) hard top-k gating receives exactly zero gradient through the mask; (3) a gate distilled onto co-adapted Q/K/V achieves high F1 against oracle masks but catastrophic perplexity when deployed (601.6 vs. 48.6 on mask-agnostic Q/K/V); and (4) stochastic mask randomization during training fails to prevent co-adaptation (78.2 ppl deployed dense vs. 37.3 baseline). We connect routing absorption to the same phenomenon in Mixture-of-Experts, where random routing matches learned routing because experts co-adapt to any router, but show that attention exhibits a structurally more severe form: shared Q/K/V parameters enable cross-layer compensation pathways absent in MoE, where experts are self-contained modules. The implication is that end-to-end sparse attention methods employing per-query token-level gating face absorption pressure proportional to the parameter asymmetry between the gate and the model, and that post-hoc approaches, which decouple representation learning from sparsification, sidestep this entirely.

研究の動機と目的

  • エンドツーエンドの per-query スパースアテンションゲートの学習が、Q/K/Vによる吸収のためルーティングにほとんど利益を与えないことを実証する
  • さまざまな学習レジームの下で、ゲート学習とランダムまたはOracleマスクとの比較を定量化する
  • ルーティングを表現学習からデコアップすることで、効果的なスパースアテンションを実現できることを示す
  • アテンションの吸収をMixture-of-Expertsにおける類似現象と関連づけ、スパースアテンション手法の実用的影響を論じる

提案手法

  • WikiText-103上で、密度パラメータk=64の微分可能ソフトゲーティングを用いた6層・256次元・4ヘッドのトランスフォーマー(約31Mパラメータ)を学習
  • エンドツーエンドで学習したゲートと凍結されたランダムゲートを複数のシードで比較
  • マスクを介した勾配フローを検証するためのHard Top-kゲーティングを実施
  • denseおよび共適応Q/K/Vチェックポイント上のゲートの蒸留を行いデプロイ挙動を検証
  • 確率的マスクのトレーニング時ランダム化を評価し共適応の防止を検証
  • スケールアップ試験(Qwen3-1.7B)および単一層/少層の吸収実験を実施してスケール耐性を評価
Figure 2: Convergence dynamics under decoupled vs. co-adapted training. (a) Post-hoc gate-only training on the frozen 31M model: the learned gate converges from 46.8 to 37.3 ppl in 500 steps ( $>$ 99% of total improvement), while the frozen random gate stays flat. (b) Single-layer co-adaptation at Q
Figure 2: Convergence dynamics under decoupled vs. co-adapted training. (a) Post-hoc gate-only training on the frozen 31M model: the learned gate converges from 46.8 to 37.3 ppl in 500 steps ( $>$ 99% of total improvement), while the frozen random gate stays flat. (b) Single-layer co-adaptation at Q

実験結果

リサーチクエスチョン

  • RQ1エンドツーエンドの per-query ゲーティング機構の学習は、ランダムまたはOracleマスクと比較してルーティングを改善するか?
  • RQ2ゲートを介した勾配信号はQ/K/Vとゲート間の共適応を克服するのに十分か?
  • RQ3デコップリング(後処理)によるルーティング学習は密集度に近い性能を回復できるか、なぜ成功するのか?
  • RQ4スケールはルーティングの吸収と共適応の強さにどのような影響を与えるか?
  • RQ5既存の学習ルーティングに依存するスパースアテンションおよびMoE手法に対する含意は何か?

主な発見

  • エンドツーエンドのソフトゲーティングは、 frozen random gates とほぼ同等の困難度(48.73±0.60 対 49.83±0.04;denseは37.32)を示し、ほとんどのルーティング利得がQ/K/Vの共適応に吸収されることを示唆
  • Hard Top-kゲーティングはマスクを介して勾配を与えず、勾配が欠如しているときは学習ゲートとほぼ同じ性能になる
  • 共適応されたQ/K/V上へ蒸馏されたゲートはデプロイメント性能を崩壊させ、denseと比較して(601.6)となり、oracleマスクに対して高いF1を示すにもかかわらず、マスク特有の共適応が強いことを示す
  • トレーニング中の確率的マスクのランダム化は吸収を防ぐことなく表現を劣化させる(78.2 ppl deployed dense 対 37.3 baseline)
  • ポストハック蒸留(デコップリング済みルーティング)は、ゲート訓練ステップ数が大幅に少なくても密集度に近い性能を達成できる(例:k=64でKL蒸留を用いた1,000ステップ)、長いエンドツーエンド学習とは対照的
  • 吸収はスケールとともに強まる:Qwen3-1.7Bでは、oracleの困惑度はdenseの0.4%未満の差であるが、エンドツーエンド経路は共適応下で脆弱のまま;パラメータの非対称性(ゲート対モデル)が影響を推進
Figure 3: The absorption gradient at Qwen3-1.7B scale. As more layers unfreeze (increasing co-adaptation capacity), the random gate’s perplexity drops toward the learned gate’s level. The shaded area shows the gap shrinking from 31.5 (post-hoc, no co-adaptation) to 6.9 (29% of layers unfrozen). The
Figure 3: The absorption gradient at Qwen3-1.7B scale. As more layers unfreeze (increasing co-adaptation capacity), the random gate’s perplexity drops toward the learned gate’s level. The shaded area shows the gap shrinking from 31.5 (post-hoc, no co-adaptation) to 6.9 (29% of layers unfrozen). The

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。