QUICK REVIEW

[論文レビュー] Learning Fast Samplers for Diffusion Models by Differentiating Through Sample Quality

Daniel Watson, William Chan|arXiv (Cornell University)|Feb 11, 2022

Generative Adversarial Networks and Image Synthesis被引用数 23

ひとこと要約

論文は Differentiable Diffusion Sampler Search (DDSS) を導入し、サンプル品質を微分可能にすることで再訓練なしに通常より少ないステップで高品質なディフュージョンサンプリングを実現する、GGDM 系を用いた高速かつ非マルコフ的サンプラーの最適化を行う。

ABSTRACT

Diffusion models have emerged as an expressive family of generative models rivaling GANs in sample quality and autoregressive models in likelihood scores. Standard diffusion models typically require hundreds of forward passes through the model to generate a single high-fidelity sample. We introduce Differentiable Diffusion Sampler Search (DDSS): a method that optimizes fast samplers for any pre-trained diffusion model by differentiating through sample quality scores. We also present Generalized Gaussian Diffusion Models (GGDM), a family of flexible non-Markovian samplers for diffusion models. We show that optimizing the degrees of freedom of GGDM samplers by maximizing sample quality scores via gradient descent leads to improved sample quality. Our optimization procedure backpropagates through the sampling process using the reparametrization trick and gradient rematerialization. DDSS achieves strong results on unconditional image generation across various datasets (e.g., FID scores on LSUN church 128x128 of 11.6 with only 10 inference steps, and 4.82 with 20 steps, compared to 51.1 and 14.9 with strongest DDPM/DDIM baselines). Our method is compatible with any pre-trained diffusion model without fine-tuning or re-training required.

研究の動機と目的

拡張せずに元の拃モデルの再訓練やファインチューニングを行うことなく、拡張 inference ステップ数を減らす動機づけ。
高速サンプラーを探索する微分可能な最適化フレームワークを提案。
Generalized Gaussian Diffusion Model (GGDM) を柔軟なサンプラー系として導入。
知覚損失（KID）を用いてサンプルを最適化すると、少ステップ領域でより高品質なサンプルが得られることを実証。

提案手法

拡張を伴わずに拡散サンプリング過程を展開し、再パラメータ化トリックと勾配再材料化を用いてパラメトリックサンプラーを最適化。
学習可能なパラメータで平均と分散を制御するサンプラー系（DDIM、VARS、GGDM および GGDM の派生形）を定義。
人間の知覚品質と整合させるため Inception 特徴量で計算される Kernel Inception Distance (KID) に基づく知覚損失を使用（式7–9）。
ミニバッチ SGD（Adam）でサンプリング連鎖を微分可能にして、確率的サンプラをバックプロパゲーション。
各デノイジングステップで前の（ノイジーな）全ての画像から情報を取り込む Generalized Gaussian Diffusion Models (GGDM) を導入。
少ステップの性能を改善するためにタイムステップ選択（TIME）および予測係数（PRED）の学習を許可。

実験結果

リサーチクエスチョン

RQ1微分可能な最適化手法は、既知の少ステップベースの基準よりも優れた高速サンプラーを特定できるか。
RQ2知覚損失（KID）を最適化すると、尤度や ELBO のみの最適化よりも視覚的忠実度の高いサンプラーを得られるか。
RQ3GGDM 系は、DDIM や VARS に比べて高品質な少ステップサンプラーを見つける柔軟性があるか。

主な発見

サンプラー	K	FID	IS
DDPM (linear stride)	5	84.27	5.396
DDPM (linear stride)	10	43.39	7.034
DDPM (linear stride)	15	31.40	7.609
DDPM (linear stride)	20	25.94	7.879
DDPM (linear stride)	25	22.60	8.043
DDPM (quadratic stride)	5	76.25	5.435
DDPM (quadratic stride)	10	42.03	6.965
DDPM (quadratic stride)	15	27.78	7.714
DDPM (quadratic stride)	20	20.225	8.128
DDPM (quadratic stride)	25	16.17	8.350
DDIM (linear stride)	5	44.41	6.750
DDIM (linear stride)	10	19.11	7.965
DDIM (linear stride)	15	14.06	8.190
DDIM (linear stride)	20	11.82	8.420
DDIM (linear stride)	25	10.52	8.512
DDIM (quadratic stride)	5	32.66	7.090
DDIM (quadratic stride)	10	13.62	8.190
DDIM (quadratic stride)	15	9.318	8.495
DDIM (quadratic stride)	20	7.500	8.641
DDIM (quadratic stride)	25	6.560	8.759
GGDM +PRED+TIME	5	13.77	8.520
GGDM +PRED+TIME	10	8.227	8.903
GGDM +PRED+TIME	15	6.115	9.050
GGDM +PRED+TIME	20	4.722	9.261
GGDM +PRED+TIME	25	4.250	9.186
DDPM (linear stride)	5	122.0	5.878
DDPM (linear_stride)	10	58.78	10.67
DDPM (linear_stride)	15	39.30	13.22
DDPM (linear_stride)	20	31.36	14.72
DDPM (linear_stride)	25	26.36	15.71
DDPM (quadratic_stride)	5	394.8	1.351
DDPM (quadratic_stride)	10	129.5	5.997
DDPM (quadratic_stride)	15	80.10	9.595
DDPM (quadratic_stride)	20	61.34	11.60
DDPM (quadratic_stride)	25	49.60	13.01
DDIM (linear_stride)	5	135.4	5.898
DDIM (linear_stride)	10	40.70	12.225
DDIM (linear_stride)	15	28.54	13.99
DDIM (linear_stride)	20	24.225	14.75
DDIM (linear_stride)	25	22.13	15.16
DDIM (quadratic_stride)	5	409.1	1.380
DDIM (quadratic_stride)	10	148.6	5.533
DDIM (quadratic_stride)	15	67.65	9.842
DDIM (quadratic_stride)	20	45.60	11.99
DDIM (quadratic_stride)	25	36.11	13.225
GGDM +PRED+TIME	5	55.14	12.90
GGDM +PRED+TIME	10	37.32	14.76
GGDM +PRED+TIME	15	24.69	17.225
GGDM +PRED+TIME	20	20.69	17.92
GGDM +PRED+TIME	25	18.40	18.12

DDSS は、同じ小さなステップ予算で強力な基準よりも substantially 良い FID/IS スコアを達成する高速サンプラーを発見する（例：GGDM +PRED+TIME は 5–25 ステップで DDPM/DDIM ベースラインを上回る）。
KID を知覚損失として最適化すると、高忠実度のサンプルを得られ、CIFAR-10, ImageNet-64 などのデータセットで堅牢な改善が見られる。
GGDM はより広いサンプラー系であり、DDIM や VARS といった狭い系よりも一貫して少ステップでの性能が良く、元の順伝播過程と周辺が異なる場合でも効果を発揮する。
DDSS は事前訓練済みの DDPM のファインチューニングや再訓練を必要とせず、ワンショットの後処理的サンプラー探索として機能する。
CIFAR-10 および ImageNet-64 全体で、DDSS バリアントは非常に少ないステップ（例：CIFAR-10: 5–25 ステップ; ImageNet-64: 5–25 ステップ）で FID を大幅に低減し、IS も競争力を保持。
定性的サンプルは、低ステップ数で DDIM(η=0) を超える非チェリーチョイスの改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。