[論文レビュー] DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics
トレーニング不要の拡散 ODE ソルバーが経験的モデル統計(EMS)を用いて高次のソルバーを形成し、ピクセル空間および潜在空間モデルの少ない関数評価数(NFEs)でサンプル品質を向上させます。
Diffusion probabilistic models (DPMs) have exhibited excellent performance for high-fidelity image generation while suffering from inefficient sampling. Recent works accelerate the sampling procedure by proposing fast ODE solvers that leverage the specific ODE form of DPMs. However, they highly rely on specific parameterization during inference (such as noise/data prediction), which might not be the optimal choice. In this work, we propose a novel formulation towards the optimal parameterization during sampling that minimizes the first-order discretization error of the ODE solution. Based on such formulation, we propose DPM-Solver-v3, a new fast ODE solver for DPMs by introducing several coefficients efficiently computed on the pretrained model, which we call empirical model statistics. We further incorporate multistep methods and a predictor-corrector framework, and propose some techniques for improving sample quality at small numbers of function evaluations (NFE) or large guidance scales. Experiments show that DPM-Solver-v3 achieves consistently better or comparable performance in both unconditional and conditional sampling with both pixel-space and latent-space DPMs, especially in 5$\sim$10 NFEs. We achieve FIDs of 12.21 (5 NFE), 2.51 (10 NFE) on unconditional CIFAR10, and MSE of 0.55 (5 NFE, 7.5 guidance scale) on Stable Diffusion, bringing a speed-up of 15%$\sim$30% compared to previous state-of-the-art training-free methods. Code is available at https://github.com/thu-ml/DPM-Solver-v3.
研究の動機と目的
- 拡散モデルのサンプリングを効率化する動機づけと、サンプリング時のモデルパラメータ化がサンプリング精度に与える影響を特定する。
- EMS を用いた ODE 形式を提案し、サンプリング時の1次離散化誤差を最小化する。
- EMS を活用した高次マルチステップ予測子-修正子拡散 ODE ソルバーを開発する。
- ピクセル空間および潜在空間 DPM の無条件・条件付きサンプリングにおいて、NFEs が少ない場合でも一貫した改善を示す。
提案手法
- 拡散 ODE を three coefficient functions l_lambda, s_lambda, b_lambda を含むように再定式化し、線形/非線形の分割を制御する(EMS フレームワーク)。
- EMS を、事前学習済みモデルから計算される解析解として定義し、非線形部の期待値二乗ヤコビ行列を最小化することで、非線形項の最適な線形近似を可能にする。
- ターゲット関数のスケール版として g_theta を導入し、離散化誤差を低減し、1次誤差が f_theta^{(1)} - s_lambda f_theta - b_lambda に依存することを示す条件を導出する。
- λ_s での g_theta のテイラー展開と事前計算された導関数 g_theta^{(k)} を用いた高次の局所近似(n+1 次)を導出し、明示的な離散化公式を示す。
- 過去の導関数を再利用できるグローバルなマルチステップ予測子-修正子フレームワークを適用して、高次・低 NFEs のサンプリングを実現する;疑似次序戦略と大きなガイダンススケール向けの半修正子変種を含める。
実験結果
リサーチクエスチョン
- RQ1拡散サンプリング中のモデルパラメータ化の選択が離散化誤差とサンプル品質にどのような影響を与えるか?
- RQ2EMS ベースの ODE 形式が、低 NFEs で既存の指数積分ソルバーを上回る高次のトレーニング不要サンプラーを生み出すことができるか?
- RQ3EMS を用いた多段予測子-修正子戦略は、ピクセル空間および潜在空間 DPM における無条件・条件付きサンプリングでより良い性能を発揮するか?
- RQ4小さな NFEs や大きなガイダンススケール下での性能を改善する実践的技法(例:疑似次数、半修正子)は何か?
- RQ5提案された高次 EMS ベースのソルバーに対して、一般的な DPM 設定での収束保証はあるか?
主な発見
| Method | Model | NFE | 5 | 6 | 8 | 10 | 12 | 15 | 20 | 25 |
|---|---|---|---|---|---|---|---|---|---|---|
| DPM-Solver-v3 | (CIFAR-10 pixel-space, ScoreSDE) | 5 | 12.21 | 8.56 | 3.50 | 2.51 | 2.24 | 2.10 | 2.02 | 2.00 |
| DPM-Solver-v3 | (CIFAR-10 pixel-space, ScoreSDE) | 6 | 8.56 | 3.50 | 2.51 | 2.24 | 2.10 | 2.02 | 2.00 | 2.00 |
| DPM-Solver-v3 | (CIFAR-10 pixel-space, ScoreSDE) | 8 | 3.50 | 2.51 | 2.24 | 2.10 | 2.02 | 2.00 | 2.00 | 2.00 |
| DPM-Solver-v3 | (CIFAR-10 pixel-space, ScoreSDE) | 10 | 2.51 | 2.24 | 2.10 | 2.02 | 2.00 | 2.00 | 2.00 | 2.00 |
- DPM-Solver-v3 は、前の高速サンプラーより無条件・条件付きの設定のいずれもで 5–20 NFEs の範囲で一貫してサンプル品質を向上させる。
- ピクセル空間 DPM における CIFAR-10 で、DPM-Solver-v3 は 5 NFE で 12.21 FID、10 NFE で 2.51 FID を達成し、従来手法より notable な速度向上を示す。
- 潜在空間 DPM(Stable Diffusion)では、手法は競争力のある MSE(例:5 NFE で 0.55、7.5 ガイダンス)を示す。
- CIFAR-10 全体で UniPC と DPM-Solver-v3 は強い性能を示し、DPM-Solver-v3 は NFEs が 5,6,8,10,12,15,20,25 の場合にそれぞれ 12.76, 7.40, 3.94, 3.40, 3.24, 2.91, 2.71, 2.64 を達成し、非常に低 NFEs で高い精度を示す。
- EMS ベースの定式化は、事前学習済みモデルに対してサンプリング ODE を体系的に調整する方法を提供し、低 NFEs での離散化誤差の低減と安定性の向上につながる。
- 著者は実用的な技術(疑似次数ソルバーと半修正子)も導入し、挑戦的なサンプリング条件下での性能をさらに向上させている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。