[論文レビュー] DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention
DyLLM は salient トークンの完全再計算と saliency-aware approximate attention の使用により拡散 LLM 推論を加速し、LLaDA と Dream でほぼベースライン精度を維持しつつ最大 9.6x のスループットを達成。
Masked Diffusion Language Models (MDLMs) enable parallel token decoding, providing a promising alternative to the sequential nature of autoregressive generation. However, their iterative denoising process remains computationally expensive because it repeatedly processes the entire sequence at every step. We observe that across these diffusion steps, most token representations remain stable; only a small subset, which we term salient tokens, contributes meaningfully to the next update. Leveraging this temporal sparsity, we present DyLLM, a training-free inference framework that accelerates decoding by selectively computing only these salient tokens. DyLLM identifies saliency by measuring the cosine similarity of attention contexts between adjacent denoising steps. It recomputes feed-forward and attention operations only for salient tokens while reusing cached activations for the remainder. Across diverse reasoning and code-generation benchmarks, DyLLM achieves up to 9.6x higher throughput while largely preserving the baseline accuracy of state-of-the-art models like LLaDA and Dream.
研究の動機と目的
- diffusion ステップをまたぐ反復全体シーケンス処理によって引き起こされる MDLM 推論の非効率性を動機づけ、解決する。
- 更新が必要な salient トークンを特定するために層ごとの時系列スパーシティを活用し、一方で安定トークンのキャッシュ計算を再利用する。
- トレーニングなしで推論技術を開発し、精度を維持しつつスループットを大幅に向上させる。
- saliency-aware アテンション機構を提案し、忠実度を損なうことなくアテンションのオーバーヘッドをさらに削減する。
提案手法
- 隣接する拡散ステップ間のアテンションコンテキストの時系列コサイン類似度によって層ごとの時系列スパーシティを定義する。
- 類似度が閾値を下回る各層で salient トークンを特定し、これらのトークンに対してのみFFNとアテンションを再計算する。
- salient でないトークンの活性化を再利用し、saliency-aware approximate attention を適用して二次のアテンションコストを削減する。
- 層間で意味的デルタを伝播させる二経路更新を採用:salient トークンの厳密更新と非 salient トークンの近似更新、計算量を O(N^2d) から O(N|A|d) に削減する。
- 応答重視の saliency を採用し、応答トークンの中で salient トークンを優先し、固定間隔でのみ全シーケンス入力を実施する。
実験結果
リサーチクエスチョン
- RQ1層ごとの時系列スパーシティを利用して拡散型 LLM 推論を大きな精度低下なしに加速できるか。
- RQ2アテンションコンテキストの類似度に基づく salient トークン検出を FFN およびアテンション更新に組み込んで計算を削減できるか。
- RQ3saliency-aware approximate attention が MDLM の全体的な生成品質とスループットに与える影響はどのようになるか。
- RQ4より高い並列デコード度(n_u)と異なるモデルファミリ(LLaDA、Dream)でアプローチはどう拡張されるか。
主な発見
- DyLLM は拡散ステップ全体で salient トークンのみを再計算することで実質的なスループット向上を達成。
- saliency-aware approximate attention は忠実度を保ちながらアテンションコストを大幅に削減。
- LLaDA および Dream モデル全体で、それぞれ最大 7.6x および 9.6x のスループット改善を達成し、多様なベンチマークでほぼベースライン精度を実現。
- データセットやモデルに特有の調整を要することなく、並列デコードの増加(n_u)にも堅牢にスケールする。
- 閾値選択(tau)によってスループットと精度の間で制御されたトレードオフを可能にし、モデル特有のスイートスポット(例:tau は約 0.99–0.995)を示す。
- salient トークンは応答トークンの間に大部分集中しており、応答のみの洗練を効率化する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。