[论文解读] Understanding Diffusion Models: A Unified Perspective
论文从似然基和分数基观点提出扩散模型,推导变分扩散模型的ELBO,并提供多种等价解释以加深理解并指导训练与采样。
Diffusion models have shown incredible capabilities as generative models; indeed, they power the current state-of-the-art models on text-conditioned image generation such as Imagen and DALL-E 2. In this work we review, demystify, and unify the understanding of diffusion models across both variational and score-based perspectives. We first derive Variational Diffusion Models (VDM) as a special case of a Markovian Hierarchical Variational Autoencoder, where three key assumptions enable tractable computation and scalable optimization of the ELBO. We then prove that optimizing a VDM boils down to learning a neural network to predict one of three potential objectives: the original source input from any arbitrary noisification of it, the original source noise from any arbitrarily noisified input, or the score function of a noisified input at any arbitrary noise level. We then dive deeper into what it means to learn the score function, and connect the variational perspective of a diffusion model explicitly with the Score-based Generative Modeling perspective through Tweedie's Formula. Lastly, we cover how to learn a conditional distribution using diffusion models via guidance.
研究动机与目标
- 澄清扩散模型如何在基于似然的生成框架和基于分数的生成框架中发挥作用。
- 推导并解释变分扩散模型(VDMs)的证据下界(ELBO)。
- 展示扩散模型训练的多种可解释视角(重构、先验匹配、去噪一致性)。
- 将扩散模型与变分自编码器(VAE)和分层变分自编码器(HVAE)联系起来,以统一视角。
- 讨论在ELBO估计中对训练、采样以及方差考虑的实际影响。
提出的方法
- 给出标准潜变量模型的ELBO推导,并扩展到分层变分自编码器(HVAE)和马尔可夫HVAE。
- 将变分扩散模型(VDMs)引入为具有固定高斯编码器结构和时变噪声日程的马尔可夫HVAE。
- 通过将编码器转移重新参数化为依赖单个随机变量,推导出对VDMs的低方差ELBO形式。
- 将ELBO分解成可解释的项:重构、先验匹配和去噪一致性。
- 解释如何从标准高斯噪声开始并应用去噪转移来对VDMs进行采样。
- 将扩散过程与三种等价解释联系起来:基于似然、基于分数,以及引导/无分类器引导框架。
实验结果
研究问题
- RQ1扩散模型如何在基于似然的生成建模框架和基于分数的生成建模框架中被理解?
- RQ2基于扩散的生成模型的正确ELBO形式是什么,以及如何高效计算?
- RQ3扩散ELBO的可解释组成部分有哪些,它们如何与如重构和先验匹配等训练目标相关?
- RQ4变分自编码器和分层变分自编码器在统一视角中如何与扩散模型相关?
- RQ5在使用所提ELBO分解和引导机制时,对扩散模型的训练与采样会带来哪些实际影响?
主要发现
- VDMs通过将扩散模型表征为具有高斯编码器和标准高斯最终潜变量的马尔可夫HVAE,提供统一视角。
- VDMs 的ELBO可分解为重构项、先验匹配项和去噪一致性项,从而实现低方差的蒙特卡洛估计。
- 基于再参数化技巧的改写得到一个ELBO,使得每一项都是对单个随机变量的期望,从而在实践中降低方差。
- 推导揭示扩散模型的三种等价解释:基于似然、基于分数,以及基于引导(分类器引导和无分类器引导)。
- 训练动力学由使向后去噪转移与前向高斯扰动保持一致驱动,当T趋于无穷大时,最终潜在分布与标准高斯先验相匹配。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。