Skip to main content
QUICK REVIEW

[論文レビュー] Denoising Diffusion Implicit Models

Jiaming Song, Chenlin Meng|arXiv (Cornell University)|Oct 6, 2020
Generative Adversarial Networks and Image Synthesis参考文献 40被引用数 102
ひとこと要約

DDIMsは、DDPMの訓練目的を再利用しつつ非マルコフ過程を可能にする暗黙的拡散モデルであり、高品質な画像生成をはるかに少ないサンプリングステップで実現し、潜在空間の補間と再構築を可能にする。

ABSTRACT

Denoising diffusion probabilistic models (DDPMs) have achieved high quality image generation without adversarial training, yet they require simulating a Markov chain for many steps to produce a sample. To accelerate sampling, we present denoising diffusion implicit models (DDIMs), a more efficient class of iterative implicit probabilistic models with the same training procedure as DDPMs. In DDPMs, the generative process is defined as the reverse of a Markovian diffusion process. We construct a class of non-Markovian diffusion processes that lead to the same training objective, but whose reverse process can be much faster to sample from. We empirically demonstrate that DDIMs can produce high quality samples $10 \times$ to $50 \times$ faster in terms of wall-clock time compared to DDPMs, allow us to trade off computation for sample quality, and can perform semantically meaningful image interpolation directly in the latent space.

研究の動機と目的

  • DDPMサンプリング効率とGAN様の性能とのギャップを動機づける。
  • DDPM訓練目的を保持する広義の前方過程のクラスを導入する。
  • より速く、制御可能な生成を可能にする決定論的暗黙モデルとしてのDDIMsを提案する。
  • 高速サンプリング、補間、再構築機能を含む経験的利点を示す。

提案手法

  • DDPMと同じ代理目的を保ちながら、マルコフ性のある前方拡散を非マルコフ性へ一般化する。
  • x_tからx_0をf_theta^(t)(x_t)で予測することを用いる訓練可能な生成過程p_theta(x_0:T)を定義する。
  • 適切なgammaに対してDDPMのL_gamma目的と同等の統一的変分目的J_sigmaを導出し、非マルコフ前方でのDDPM訓練の再利用を可能にする。
  • x_0を予測と組み合わせ、x_{t-1)への決定論的経路を導くDDIMサンプリング更新を導出し、決定論的なサンプリング(eta=0)または確率的サンプリング(eta>0)を可能にする。
  • 前方サブセット軌道tauを用いた加速生成を提案し、再訓練なしに少ないステップでサンプルする。

実験結果

リサーチクエスチョン

  • RQ1非マルコフ前方過程が、より高速またはより制御可能なサンプリングを実現しつつ、DDPMと同じ変分目的を得られるか。
  • RQ2決定論的または半決定論的なサンプリング方式を構築し、高レベルの意味論と潜在空間補間を可能にするにはどうすればよいか。
  • RQ3DDIMと比較した場合のサンプリング速度、サンプル品質、および再構築能力のトレードオフは何か。
  • RQ4事前訓練済みのDDPM訓練モデルを再訓練なしで非マルコフ前方過程に再利用できるか。
  • RQ5DDIMサンプラーの連続時間ODE解釈は、ニューラルODEや確率流法と結びつくのか。

主な発見

  • DDIMsはDDPMsより10倍〜50倍の高速サンプリングを実現しつつ高品質なサンプルを維持する。
  • DDIMsは一貫性の性質を示し、初期潜在x_Tが同じ場合、軌道長さが異なるにもかかわらず高レベルの特徴が似たサンプルを生む。
  • 決定論的DDIMサンプリングはサンプル間の意味のある潜在空間補間を可能にする。
  • DDIMsは潜在コードから観測を再構成でき、確率的DDPMサンプリングとは異なり誤差が低い。
  • 再訓練を必要とせず、非マルコフ前方過程を用いてDDPM目的を再利用することで、より高速な生成が可能になる。
  • 補間と再構成能力は暗黙モデルおよびニューラルODE様の挙動に類似している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。