[論文レビュー] S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation
S2DiT は LinConv Hybrid Attention と Stride Self-Attention を交互に組み合わせたモバイル対応の Streaming Sandwich Diffusion Transformer と 2-in-1 蒸留パイプラインを導入し、iPhone 上で 10 FPS 以上の高忠実度のオンデバイス・ストリーミング動画生成を実現し、サーバー品質と競合するベンチマークを達成します。
Diffusion Transformers (DiTs) have recently improved video generation quality. However, their heavy computational cost makes real-time or on-device generation infeasible. In this work, we introduce S2DiT, a Streaming Sandwich Diffusion Transformer designed for efficient, high-fidelity, and streaming video generation on mobile hardware. S2DiT generates more tokens but maintains efficiency with novel efficient attentions: a mixture of LinConv Hybrid Attention (LCHA) and Stride Self-Attention (SSA). Based on this, we uncover the sandwich design via a budget-aware dynamic programming search, achieving superior quality and efficiency. We further propose a 2-in-1 distillation framework that transfers the capacity of large teacher models (e.g., Wan 2.2-14B) to the compact few-step sandwich model. Together, S2DiT achieves quality on par with state-of-the-art server video models, while streaming at over 10 FPS on an iPhone.
研究の動機と目的
- モバイルデバイス上で高品質な動画生成を動機づけ、リアルタイムストリーミングの制約に対処する。
- 忠実度と待ち時間のバランスを取るため、LCHA + SSA という効率的なサンドイッチアーキテクチャを提案する。
- 待ち時間とメモリ予算の下で LCHA および SSA ブロックを最適配分する動的計画探索を開発する。
- 2-in-1 蒸留フレームワークを導入し、ビリオンパラメータの教師モデルからコンパクトなモバイルボトムアップへ知識を移す。
- 自己強制と蒸留を用いたストリーミング自己回帰動画生成を実現し、時間的一貫性を維持する。
提案手法
- LinConv Hybrid Attention (LCHA) と Stride Self-Attention (SSA) を交互に組み合わせた Sandwich Diffusion Transformer を設計し、線形または複雑さ低減のアテンションを達成する。
- 待機時間とメモリ制約の下で LCHA と SSA ブロックを割り当てる予算認識型動的計画探索を使用する。
- 大規模ティーチャー (Wan2.2-14B) を用いて事前計算されたティーチャー出力で、コンパクトな学生モデル (1.8B) を監督するオフライン cached 知識蒸留パイプラインを採用する。
- 少数ステップでストリーミング自己回帰生成を実現するための Distribution-Matching Distillation (DMD) と自己強制を適用する。
- モバイルデバイス上のメモリ管理のため、カスケード的に窓付き KV キャッシュを用いた因果的なストリーミング推論を組み込む。

実験結果
リサーチクエスチョン
- RQ1 diffusion トランスフォーマーをモバイルの実時間ストリーミング動画生成に十分効率化でき、忠実度を犠牲にしないか。
- RQ2高解像度の局所モデリング (LCHA) を低解像度のグローバル文脈 (SSA) と交互に組み合わせることでモバイル制約下の品質が改善されるか。
- RQ3オフライン cached 蒸留を介して大規模ティーチャーモデルの知識を小さなモバイルボトトへ転送し高い視覚忠実度を維持できるか。
- RQ4自己強制と分布整合蒸留によりデバイス上で正確な自己回帰ストリーミング動画生成が実現できるか。
- RQ5動的計画–アーキテクチャ探索によるアテンションブロックの待機時間と忠実度のトレードオフはどの程度実現可能か。
主な発見
| モデル | パラメータ数 (B) | 合計 | 品質 | 意味論 | フリッカー | 美学 | イメージング | 対象分類 | シーン | 一貫性 |
|---|---|---|---|---|---|---|---|---|---|---|
| Wan2.1 | 14 | 84.70 | 85.23 | 75.65 | 99.55 | 65.46 | 67.01 | 88.81 | 41.96 | 25.50 |
| LTX-Video | 1.8 | 80.00 | 82.30 | 70.79 | 99.34 | 59.81 | 60.28 | 83.45 | 51.07 | 25.19 |
| Open-Sora-2.0 | 11 | 84.34 | 85.40 | 80.12 | 99.40 | 64.39 | 65.66 | 94.50 | 52.71 | 27.50 |
| Wan2.1 | 1.3 | 83.31 | 85.23 | 75.65 | 99.55 | 65.46 | ? | 88.81 | 41.96 | 25.50 |
| S2DiT-Pretrained | 1.8 | 82.40 | 84.41 | 74.46 | 98.52 | 64.97 | 68.49 | 91.74 | 44.35 | 24.94 |
| S2DiT-KD | 1.8 | 83.62 | 86.13 | 73.58 | 99.56 | 65.26 | 69.05 | 91.76 | 48.37 | 25.35 |
| S2DiT-AR | 1.8 | 83.26 | 85.63 | 73.79 | 98.20 | 65.64 | 70.57 | 89.49 | 49.19 | 24.75 |
- S2DiT はモバイル上で約 11 FPS のオンデバイス・ストリーミング動画生成を実現し、サーバーモデルと同程度の品質を達成する。
- LCHA と SSA を組み合わせたサンドイッチアーキテクチャは、モバイル予算下で単一アテンションのベースラインや horbgass 風設計より優れている。
- Wan2.2-14B からのオフライン cached 知識蒸留と自己強制により、少ないサンプリングステップで高忠実度を実現。
- 自己回帰ストリーミングのバリアント(AR)は、デバイス上のストリーミングに対して少ないサンプルステップで競争力のある忠実度を提供。
- S2DiT-KD および S2DiT-AR は S2DiT-Pretrained を上回り、2-in-1 蒸留アプローチを検証。
![Figure 3 : Visual comparisons. For Wan-1.3B [ 39 ] and LTX-2B [ 10 ] , videos are generated using their official default inference resolutions with the same prompts.](https://ar5iv.labs.arxiv.org/html/2601.12719/assets/x3.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。