[论文解读] DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from Low-Dimensional Latents
DiffuseVAE 在一个两阶段条件框架中将 VAE 与扩散模型结合起来,使从低维潜变量出发的可控、高保真图像生成成为可能,并在速度-质量权衡方面实现更快的折中。
Diffusion probabilistic models have been shown to generate state-of-the-art results on several competitive image synthesis benchmarks but lack a low-dimensional, interpretable latent space, and are slow at generation. On the other hand, standard Variational Autoencoders (VAEs) typically have access to a low-dimensional latent space but exhibit poor sample quality. We present DiffuseVAE, a novel generative framework that integrates VAE within a diffusion model framework, and leverage this to design novel conditional parameterizations for diffusion models. We show that the resulting model equips diffusion models with a low-dimensional VAE inferred latent code which can be used for downstream tasks like controllable synthesis. The proposed method also improves upon the speed vs quality tradeoff exhibited in standard unconditional DDPM/DDIM models (for instance, FID of 16.47 vs 34.36 using a standard DDIM on the CelebA-HQ-128 benchmark using T=10 reverse process steps) without having explicitly trained for such an objective. Furthermore, the proposed model exhibits synthesis quality comparable to state-of-the-art models on standard image synthesis benchmarks like CIFAR-10 and CelebA-64 while outperforming most existing VAE-based methods. Lastly, we show that the proposed method exhibits inherent generalization to different types of noise in the conditioning signal. For reproducibility, our source code is publicly available at https://github.com/kpandey008/DiffuseVAE.
研究动机与目标
- 介绍一个使用 VAE 来建模条件信号、使用 DDPM 来细化 VAE 重建的两阶段条件框架。
- 提供一个低维潜在空间以控制主要结构,而扩散噪声控制细节。
- 相比无条件扩散模型,改善生成速度-准确性折中。
- 在 CIFAR-10、CelebA-64、CelebA-HQ 和 CelebA-HQ-256 上展示有竞争力的图像合成质量,同时保留可用于下游任务(如操控)的潜在表示。
- 展示将条件框架推广到不同噪声类型的能力。
提出的方法
- 提出 DiffuseVAE,这是一个两阶段模型,其中 VAE 首先建模条件信号,DDPM 对 VAE 重建进行细化。
- 公式化联合分布 p(x_{0:T}, y, z) = p(z) p_θ(y|z) p_φ(x_{0:T}|y, z) 以及近似后验 q(x_{1:T}, z|y, x_0) = q_ψ(z|y, x_0) q(x_{1:T}|y, z, x_0)。
- 采用简化设计选择:(i) 使用 y = x_0(原始图像)使条件是确定性的,(ii) 将 DDPM 的条件设为 VAE 重建 x̂_0 而非 z,(iii) 以两阶段训练(先 VAE 再 DDPM),VAE 固定。
- 给出两种 DDPM 条件化公式(公式1和公式2),它们在前向转移如何依赖于 VAE 重建方面存在差异。
- 呈现生成器-细化器的视角:VAE 提供模糊样本,DDPM 将其细化为高保真图像。
- 通过操作 VAE 潜在编码 z_vae 和/或 DDPM 潜在 x_T 来实现可控合成,并在样本之间可选共享 DDPM 随机性以实现确定性。
实验结果
研究问题
- RQ1一个以 VAE 初始化的条件信号是否能提升扩散式图像生成的质量和可控性?
- RQ2以 VAE 重建为条件是否能让低维潜在空间控制主要结构,而扩散模型处理细节?
- RQ3与标准无条件扩散模型相比,DiffuseVAE 在速度-准确性折中方面的表现如何?
- RQ4学习到的条件框架对条件信号中的不同噪声类型是否具有鲁棒性?
主要发现
- DiffuseVAE 通过用条件 DDPM 精细化 VAE 生成的模糊样本实现高质量合成,相较基线 VAE 在 FID 上显著提升(例如在 CelebA-HQ-128 上从 87.28 提升到 10.87/11.44)。
- 两阶段生成器-细化器设置在 CIFAR-10 和 CelebA 家族基准上取得有竞争力或最先进的结果,同时保留用于可控合成的低维潜在表示。
- 在低步数采样条件下,DiffuseVAE 在多步数条件下的 FID 表现优于无条件 DDPM(例如在 T=10–100 步时,公式2 的 FID 明显优于无条件 DDPM;在 T=10 时,DiffuseVAE 公式2 在 CelebA-HQ-128 上达到 16.47,而 DDIM 为 34.36)。
- 使用 DDIM 采样结合 DiffuseVAE,生成速度进一步提升,在 CelebA 数据集上相对于无条件 DDIM 的加速可达 4x–10x(例如 T=10 时在 CelebA-HQ-128 的 FID 为 16.47 时实现 10x 的加速)。
- DiffusVAE 通过在 VAE 潜在空间进行向量运算实现可控生成,支持单项和组合编辑,同时保持全局结构。
- 泛化实验表明 DiffuseVAE 能处理带噪条件信号并恢复出合理样本,表明条件框架具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。