[論文レビュー] Steering Video Diffusion Transformers with Massive Activations
要約: 本論文はビデオ拡散トランスフォーマーにおける Massive Activations (MAs) を分析し、訓練不要の手法 STAS を導入します。STAS は初フレームと潜在境界トークンにおける MA 値を選択的に調整することで、追加オーバーヘッドをほとんど増やさずにビデオ品質と時系列的一貫性を改善します。
Despite rapid progress in video diffusion transformers, how their internal model signals can be leveraged with minimal overhead to enhance video generation quality remains underexplored. In this work, we study the role of Massive Activations (MAs), which are rare, high-magnitude hidden state spikes in video diffusion transformers. We observed that MAs emerge consistently across all visual tokens, with a clear magnitude hierarchy: first-frame tokens exhibit the largest MA magnitudes, latent-frame boundary tokens (the head and tail portions of each temporal chunk in the latent space) show elevated but slightly lower MA magnitudes than the first frame, and interior tokens within each latent frame remain elevated, yet are comparatively moderate in magnitude. This structured pattern suggests that the model implicitly prioritizes token positions aligned with the temporal chunking in the latent space. Based on this observation, we propose Structured Activation Steering (STAS), a training-free self-guidance-like method that steers MA values at first-frame and boundary tokens toward a scaled global maximum reference magnitude. STAS achieves consistent improvements in terms of video quality and temporal coherence across different text-to-video models, while introducing negligible computational overhead.
研究の動機と目的
- ビデオ拡散トランスフォーマーにおける Massive Activations の特徴と性質をモデル間および潜在圧縮設定で特定・特徴づける。
- MA の大きさがトークン位置とビデオ生成の時系列構造にどのように関連するかを理解する。
- MA 構造を活用して訓練不要の活性化調整手法を開発し、ビデオ品質と一貫性を改善する。
- STAS の適用性を複数のバックボーンで実証し、既存の訓練不要手法との互換性を示す。
提案手法
- WAN および CogVideo のバックボーンとさまざまな時系列圧縮比にわたる MA パターンを体系的に分析する。
- 初期拡張段階の denoising ステップにおいて、構造的に重要なトークン(最初のフレームと潜在境界トークン)で MA の次元を増幅するようなマスク付きの自己ガイダンス風の更新として STAS を定義する。
- 現在のレイヤーの MA 最大値に基づくグローバル参照拡大ルールを用いて調整ターゲットを指定する。
- CFG の上に STAS を適用し、ほぼオーバーヘッドゼロの1回前方伝播で評価する。
- 複数のバックボーンにわたって VBench 指標とフレーム間類似性指標(DINO/CLIP)で STAS を評価する。
- MA の次元、ターゲットトークン、 timestep ウィンドウ、拡大ルールの影響を分離するアブレーションを実施する。
![(a) Wan2.1-1.3B [ wan ]](https://ar5iv.labs.arxiv.org/html/2603.17825/assets/figures/wan2.1_b15_t5.png)
実験結果
リサーチクエスチョン
- RQ1モデルと圧縮比を横断した Massive Activations の構造的特性は何か。
- RQ2訓練不要の活性化調整手法は MA 構造を活用して、パラメータを変更せずに時系列的一貫性と視覚品質を改善できるか。
- RQ3STAS は異なるビデオ DiT バックボーン間で既存の訓練不要ガイダンス手法(例: CFG)とどう相互作用するか。
- RQ4STAS はチャンク間とチャンク内の時系列的一貫性および物体–属性結合にどのような影響を与えるか。
主な発見
| Model | Method | Subject Consistency | Background Consistency | Aesthetic Quality | Imaging Quality | Quality Score | Semantic Score | Total Score |
|---|---|---|---|---|---|---|---|---|
| Wan2.1-1.3B | Vanilla | 94.63 | 95.81 | 61.91 | 68.14 | 81.81 | 79.70 | 81.39 |
| Wan2.1-1.3B | +Ours | 95.00 | 95.93 | 62.03 | 68.95 | 82.03 | 80.66 | 81.76 |
| CogVideoX-5B | Vanilla | 93.40 | 95.29 | 59.98 | 64.62 | 79.78 | 77.59 | 79.34 |
| CogVideoX-5B | +Ours | 93.80 | 95.47 | 60.31 | 65.12 | 79.95 | 78.24 | 79.61 |
| Wan2.2-5B | Vanilla | 95.13 | 96.63 | 61.67 | 69.02 | 81.75 | 81.68 | 81.74 |
| Wan2.2-5B | +Ours | 95.37 | 96.70 | 61.72 | 69.39 | 81.82 | 82.35 | 81.93 |
- ビデオ DiT における MA は一貫した位置パターンを示す。最初のフレームのトークンは最大の活性を持ち、潜在フレーム境界は時系列圧縮と整列した周期的スパイクを示す。
- STAS は初期 denoising ステップ中に最初のフレームと境界トークンで MA 値を選択的に調整することで、追加オーバーヘッドをほぼ増やさずにビデオ品質と時系列的一貫性を改善する。
- STAS は Wan2.1-1.3B、CogVideoX-5B、Wan2.2-5B バックボーンの両方で、品質と意味的指標の両方において一貫した利得をもたらす。
- CFG と組み合わせた場合、STAS は複数のベースラインに対して品質指標と時系列安定性をさらに高める。
- アブレーションは、MA の次元を調整し、最初のフレームと境界トークンをターゲットとし、最大値ベースの拡大ルールを用いることが有効性の鍵であることを示す。
![(b) Wan2.2-5B [ wan ]](https://ar5iv.labs.arxiv.org/html/2603.17825/assets/figures/wan2.2_b15_t5.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。