[論文レビュー] Three Creates All: You Only Sample 3 Steps
MTEO は小さな層特異的な時刻埋め込みを訓練し、拡散モデルの単一のグローバル時刻条件付けを置換して、追加の推論コストなしに高品質な少数ステップサンプリング(3–6 NFE)を実現する。
Diffusion models deliver high-fidelity generation but remain slow at inference time due to many sequential network evaluations. We find that standard timestep conditioning becomes a key bottleneck for few-step sampling. Motivated by layer-dependent denoising dynamics, we propose Multi-layer Time Embedding Optimization (MTEO), which freeze the pretrained diffusion backbone and distill a small set of step-wise, layer-wise time embeddings from reference trajectories. MTEO is plug-and-play with existing ODE solvers, adds no inference-time overhead, and trains only a tiny fraction of parameters. Extensive experiments across diverse datasets and backbones show state-of-the-art performance in the few-step sampling and substantially narrow the gap between distillation-based and lightweight methods. Code will be available.
研究の動機と目的
- 推論時のステップを減らして品質を損なわずに拡散サンプリングを高速化する動機付け。
- 少数ステップ領域における従来の単一時刻条件付けの限界を特定する。
- 軌跡を蒸留する軽量で訓練可能な多層時刻埋め込みフレームワーク(MTEO)を提案する。
- 多様なバックボーンとデータセットで3–6 NFEにおける最先端性能を示す。
提案手法
- 時刻条件付けとFiLMモジュレーションが拡散バックボーン全体でどのように使用されているかを分析する。
- 各サンプリングステップごとに層特異的な時刻埋め込みを割り当てるMulti-layer Time Embedding(MTEO)を導入する。
- 事前訓練済み拡散バックボーンを凍結し、層ごとに少量の時刻埋め込みだけを訓練する。
- 高忠実度の教師軌跡に対して軌跡蒸留を通じて埋め込みを訓練する。
- トレーニング overhead を最小化するために早期停止を取り入れた効率的な段階的訓練スケジュールを用いる。
実験結果
リサーチクエスチョン
- RQ1層特異的な時刻条件付けは共有グローバル時刻埋め込みより少数ステップ拡散サンプリングを改善できるか。
- RQ2時間条件付けを層ごとに分離した場合、FiLM モジュレーションの容量をどれだけ活用できるか。
- RQ3MTEO を用いた場合の訓練オーバーヘッドとサンプリング品質のトレードオフはどの程度か。
- RQ4zeroinference-time overhead を維持しつつ3–6 NFEで最先端性能を達成できるか。
- RQ5MTEO 埋め込みは異なるステップ数やバックボーンにどれだけ転送可能か。
主な発見
- MTEO は複数のバックボーンとデータセットにおいて3–6 NFE領域で最先端性能を達成。
- 層特異的な時刻埋め込みは層間で条件付けを分離し、推論コストを増やさずにFiLM モジュレーションを豊かに可能にする。
- FiLM は適切な層ごとのモジュレーションを提供することで中間表現を補正するのに十分な容量を持つ。
- パラメータのごく小部分(<0.2%)のみを訓練し、軌跡蒸留を用いることで蒸留ベースの方法より訓練効率を大幅に向上させる。
- MTEO は異なるステップ数への転用性を保ち、重い蒸留手法とのギャップを大幅に縮小できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。