Skip to main content
QUICK REVIEW

[論文レビュー] DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from Low-Dimensional Latents

Kushagra Pandey, Avideep Mukherjee|arXiv (Cornell University)|Jan 2, 2022
Generative Adversarial Networks and Image Synthesis被引用数 45
ひとこと要約

DiffuseVAEはVAEと拡散モデルを二段階の条件付けフレームワークで統合し、低次元の潜在表現からの高品質な画像生成を高速に実現するトレードオフを可能にします。

ABSTRACT

Diffusion probabilistic models have been shown to generate state-of-the-art results on several competitive image synthesis benchmarks but lack a low-dimensional, interpretable latent space, and are slow at generation. On the other hand, standard Variational Autoencoders (VAEs) typically have access to a low-dimensional latent space but exhibit poor sample quality. We present DiffuseVAE, a novel generative framework that integrates VAE within a diffusion model framework, and leverage this to design novel conditional parameterizations for diffusion models. We show that the resulting model equips diffusion models with a low-dimensional VAE inferred latent code which can be used for downstream tasks like controllable synthesis. The proposed method also improves upon the speed vs quality tradeoff exhibited in standard unconditional DDPM/DDIM models (for instance, FID of 16.47 vs 34.36 using a standard DDIM on the CelebA-HQ-128 benchmark using T=10 reverse process steps) without having explicitly trained for such an objective. Furthermore, the proposed model exhibits synthesis quality comparable to state-of-the-art models on standard image synthesis benchmarks like CIFAR-10 and CelebA-64 while outperforming most existing VAE-based methods. Lastly, we show that the proposed method exhibits inherent generalization to different types of noise in the conditioning signal. For reproducibility, our source code is publicly available at https://github.com/kpandey008/DiffuseVAE.

研究の動機と目的

  • VAEを条件信号のモデリングに、DDPMをVAE再構成の洗練に用いる二段階の条件付けフレームワークを導入する。
  • 主要構造を制御する低次元潜在空間を提供し、拡散ノイズが細部を支配する。
  • unconditional拡散モデルと比較して生成速度と精度のトレードオフを改善する。
  • CIFAR-10、CelebA-64、CelebA-HQ、CelebA-HQ-256で競争的な画像合成品質を示し、後処理タスク(例:操作)に対する潜在表現を保持する。
  • conditioningフレームワークを条件信号の異なるノイズタイプへ一般化できることを示す。

提案手法

  • DiffuseVAEを提案する。VAEが条件信号を最初にモデリングし、DDPMがVAE再構成を洗練する二段階モデル。
  • 結合分布p(x_{0:T}, y, z) = p(z) p_θ(y|z) p_φ(x_{0:T}|y, z)および近似後方分布q(x_{1:T}, z|y, x_0) = q_ψ(z|y, x_0) q(x_{1:T}|y, z, x_0)を定式化する。
  • 簡略化した設計上の選択を採用する:(i) 条件付けを決定論的にするためy = x_0(元画像)を用いる、(ii) DDPMをzではなくVAE再構成x̂_0に条件付ける、(iii) 二段階で訓練する(まずVAE、次にDDPM、VAEは固定)。
  • 前方遷移がVAE再構成に依存する度合いが異なる2つのDDPM条件付け形式(Formulation 1とFormulation 2)を提示する。
  • 生成器-洗練器の視点を示す:VAEはぼやけたサンプルを提供し、DDPMが高忠実度の画像へと洗練する。
  • VAE潜在コードz_vaeおよび/またはDDPM潜在x_Tを操作して制御可能な合成を探索し、サンプル間でDDPMの確定性を得るための確率的性質を共有することも可能。

実験結果

リサーチクエスチョン

  • RQ1VAEで初期化された条件信号は拡散ベースの画像生成の品質と制御性を改善できるか?
  • RQ2VAE再構成をDDPMの条件とすることで、低次元潜在空間が主要構造を制御し、拡散が細部を扱うことが可能か?
  • RQ3DiffuseVAEは標準的な無条件拡散モデルと比較して速度-精度のトレードオフでどうあるか?
  • RQ4学習された条件付けフレームワークは条件信号の異なるノイズタイプに対して頑健か?

主な発見

  • DiffuseVAEは、条件付きDDPMでVAE生成のぼやけたサンプルを洗練させることで高品質な合成を実現し、基準となるVAEと比べてFIDを大幅に改善する(例:CelebA-HQ-128で87.28から10.87/11.44へ改善)。
  • 二段階の生成・洗練構成はCIFAR-10およびCelebAファミリのベンチマークで競争力ある、あるいは最先端レベルの結果を達成しつつ、制御可能な合成のための低次元潜在表現を保持。
  • 低ステップのサンプリング領域では、複数のステップ数でUnconditional DDPMよりFIDが優れている(例:T=10–100ステップでForm-2はUnconditional DDPMより著しく良いFID; CelebA-HQ-128でT=10時、DiffuseVAE Form-2は16.47、DDIMは34.36)。
  • DDIMサンプリングを用いたDiffuseVAEはさらなる生成速度向上を実現し、CelebAデータセット上でUnconditional DDIMに対して最大4x–10xの速度アップを達成(例:CelebA-HQ-128でT=10時、16.47のFID)。
  • DiffuseVAEはVAE潜在空間のベクトル演算を介して制御可能な生成をサポートし、単一編集および複合編集を可能にしつつ全体構造を維持。
  • 一般化実験により、DiffuseVAEはノイズのある条件信号を扱い、妥当なサンプルを回復できることが示され、条件付けフレームワークの頑健性が示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。