QUICK REVIEW

[論文レビュー] Elucidating the Design Space of Diffusion-Based Generative Models

Tero Karras, Miika Aittala|arXiv (Cornell University)|Jun 1, 2022

Generative Adversarial Networks and Image Synthesis被引用数 307

ひとこと要約

この論文は拡散モデルのモジュール設計空間を提示し、サンプリングと訓練の改善を提案し、CIFAR-10とImageNet-64で新しい最先端のFIDを達成し、サンプリングを高速化している。 prior work の pretrained models への改善も示している。

ABSTRACT

We argue that the theory and practice of diffusion-based generative models are currently unnecessarily convoluted and seek to remedy the situation by presenting a design space that clearly separates the concrete design choices. This lets us identify several changes to both the sampling and training processes, as well as preconditioning of the score networks. Together, our improvements yield new state-of-the-art FID of 1.79 for CIFAR-10 in a class-conditional setting and 1.97 in an unconditional setting, with much faster sampling (35 network evaluations per image) than prior designs. To further demonstrate their modular nature, we show that our design changes dramatically improve both the efficiency and quality obtainable with pre-trained score networks from previous work, including improving the FID of a previously trained ImageNet-64 model from 2.07 to near-SOTA 1.55, and after re-training with our proposed improvements to a new SOTA of 1.36.

研究の動機と目的

拡散ベースの生成モデルの実用設計空間を、具体的な構成要素と選択を分離することにより明確にする。
サンプリングの効率と出力品質を、より高次の解法、最適化されたスケジュール、および確率的性の分析を通じて改善する。
スコアネットワークの前処理と端-to-端の訓練手法を確立して、堅牢性と性能を向上させる。
既存モデルに対するモジュラーな改善を示し、CIFAR-10とImageNet-64での利得を示す。

提案手法

拡散モデルを共通のODE/SDEフレームワークで表現し、独立した設計要素を特定する。
最適化された時刻スケジュールと曲率認識σ(t)とs(t)を用いた決定論的サンプリングの2nd-order Heun解法を適用する。
サンプリングにおける確率的性の役割を分析するため、ノイズ注入（churn）を制御した確率的サンプラーを導入する。
cin, cout, cskip, cnoiseによるσ依存のスキップとスケーリングを備えた前処理済みスコアネットワークDθを提案し、訓練を安定化させる。
訓練中の損失ウェ weightingとノイズ分布（λ(σ), ptrain(σ)）を最適化し、非リーキーなデータ拡張を用いて一般化を改善する。
新しい最先端FIDを達成する訓練改善を実証し、サンプリング速度の向上を示す（NFE reductions）。

実験結果

リサーチクエスチョン

RQ1性能とサンプリング速度に影響を与える独立した設計選択肢は何か。
RQ2訓練から分離した場合におけるデノイズ化されたモデルファミリー間での画像品質に対するサンプリング戦略（決定論的 vs 確率的）の影響はどうなるか。
RQ3 principled preconditioning and training losses が堅牢性と最終FIDを、解像度とデータセットを超えて改善できるか。
RQ4サンプリング時のODE軌道とデノイザー指示に対するスケジューリング（σ(t), s(t)）の影響はどこまで及ぶか。
RQ5既存の事前学習済み拡散モデルへのモジュラー改善の移行可能性はどの程度か。

主な発見

CIFAR-10（条件付き）で1.79、ImageNet-64で1.97の未実現の最先端FIDを、より高速なサンプリング（35 Dθ evaluations per image）で達成。
prior models を用いたときにImageNet-64で実質的に最先端に近い1.55、提案された改善で再訓練後は1.36を達成。
2nd-order Heun解法、最適化されたσ(t)とs(t)、洗練されたタイムステップスケジュールを採用することでサンプリング速度を大幅に向上。
より良い訓練前処理と損失ウェ weighting（λ(σ), ptrain(σ)）と非リーキー増強が、解像度を問わず強力な改善をもたらす。
確率的サンプリングの利点はモデル設定に依存し、訓練を改善することで低減または排除される場合があり、特定のケースでは決定論的サンプリングが確率的サンプリングよりも優れることがある。
複数のモデルファミリー（VP/VE, DDPM/DDIM, ImageNet-64）に適用してモジュラー性を検証し、一貫した利得を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。