[論文レビュー] gDDIM: Generalized denoising diffusion implicit models
本論文はDDIMを非等方拡散モデルへ一般化したgDDIMを提案し、原理的なスコアパラメータ化とサンプリング方式を提供して、拡散ベースの生成を劇的に高速化する。CLDとBDMで実証し、著しい速度向上と競争力のFID結果を示す。
Our goal is to extend the denoising diffusion implicit model (DDIM) to general diffusion models~(DMs) besides isotropic diffusions. Instead of constructing a non-Markov noising process as in the original DDIM, we examine the mechanism of DDIM from a numerical perspective. We discover that the DDIM can be obtained by using some specific approximations of the score when solving the corresponding stochastic differential equation. We present an interpretation of the accelerating effects of DDIM that also explains the advantages of a deterministic sampling scheme over the stochastic one for fast sampling. Building on this insight, we extend DDIM to general DMs, coined generalized DDIM (gDDIM), with a small but delicate modification in parameterizing the score network. We validate gDDIM in two non-isotropic DMs: Blurring diffusion model (BDM) and Critically-damped Langevin diffusion model (CLD). We observe more than 20 times acceleration in BDM. In the CLD, a diffusion model by augmenting the diffusion process with velocity, our algorithm achieves an FID score of 2.26, on CIFAR10, with only 50 number of score function evaluations~(NFEs) and an FID score of 2.86 with only 27 NFEs. Code is available at https://github.com/qsh-zh/gDDIM
研究の動機と目的
- 拡散モデルの isotropic な拡散を超えて、より高速なサンプリングを動機づける。
- 低NFEsにおけるODEベースのサンプリングを正当化するために、DDIMの機構を解釈し、SDEベースのサンプリングよりODEベースを正当化する。
- 一般DM向けのスコアネットワーク再パラメータ化を用いたgDDIMを導入する。
- 非等方ディフュージョンモデルにおけるgDDIMを検証し、加速とサンプル品質を定量化する。
提案手法
- 確率流ODEとスコア挙動を用いてDDIMを再解釈し、加速の理由を説明する。
- 支配方程式を満たす time-varying 行列 K_t を R_t に等しく設計することで、任意の拡散モデルへDDIMを一般化する。
- スコアネットワークを s_theta(u,t) = -R_t^T epsilon_theta(u,t) とパラメータ化し、決定論的および確率的なgDDIMの近似を導出する。
- 精度を保ちながらNFEsを減らす多段予測子-修正子スキームを開発する。
- 対応する理論命題を伴う決定論的および確率的な gDDIM の定式化を提供する。
- CLD および BDM において gDDIM を EMA ベースおよび確率流サンプラーと経験的に比較する。
実験結果
リサーチクエスチョン
- RQ1DDIM に似たサンプリングは、適切な近似を用いた場合、一般的な拡散モデルでも正確に(あるいはほぼ正確に)実現可能か。
- RQ2非等方的または拡張された拡散過程へ DDIM を一般化して、サンプリングの効率と品質を維持できるか。
- RQ3スコアネットワークのパラメータ化と特定の K_t/R_t の選択は、さまざまな DM において大幅な速度アップをもたらすか。
- RQ4gDDIM を用いた CLD および BDM の FID および NFEs の経験的な利得は、既存のサンプラーと比較してどれくらいか。
主な発見
| DM | サンプラー | NFE=10 | NFE=20 | NFE=50 | NFE=100 | NFE=1000 |
|---|---|---|---|---|---|---|
| DDPM† | EM | →100 | →100 | 31.2 | 12.2 | 2.64 |
| Prob.Flow, RK45 | →100 | 52.5 | 6.62 | 2.63 | 2.56 | |
| 2nd Heun†† | 66.25 | 6.62 | 2.65 | 2.57 | 2.56 | |
| gDDIM | 4.17 | 3.03 | 2.59 | 2.56 | 2.56 | |
| BDM | Ancestral sampling | →100 | →100 | 29.8 | 9.73 | 2.51 |
| Prob.Flow, RK45 | →100 | 68.2 | 7.12 | 2.58 | 2.46 | |
| gDDIM | 4.52 | 2.97 | 2.49 | 2.47 | 2.46 | |
| CLD | EM | →100 | →100 | 57.72 | 13.21 | 2.39 |
| Prob.Flow, RK45 | →100 | →100 | 31.7 | 4.56 | 2.25 | |
| gDDIM | 13.41 | 3.39 | 2.26 | 2.26 | 2.25 |
- gDDIM は、スコアネットワークのパラメータ化を小さな変更で実現することで、等方ケースを超える拡散モデルの加速を可能にする。
- 決定論的 gDDIM は CLD で著しい高速化と競争力のある FID を達成し、例えば CIFAR-10 で 50 NFEs で FID 2.26、27 NFEs で 2.86。
- BDM および CLD の実験は、同等のモデルサイズでベースラインサンプラーよりも20倍超の加速を示す。
- 拡散過程に由来する K_t = R_t を選択すると、epsilon_theta の軌道が滑らかになり、L_t のような代替案よりも安定性が向上する。
- 適切な近似を用いた確率的な gDDIM は、EM ベースの手法と比較してサンプリング効率をさらに向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。