Skip to main content
QUICK REVIEW

[论文解读] Understanding Diffusion Objectives as the ELBO with Simple Data Augmentation

Diederik P. Kingma, Ruiqi Gao|arXiv (Cornell University)|Mar 1, 2023
Advanced Neuroimaging Techniques and Applications被引用 12
一句话总结

这篇论文表明,流行的扩散模型目标是对噪声水平的加权ELBO,且在单调加权下,与ELBO再加简单高斯数据增强相等;在单调权重下的实验在高分辨率ImageNet上达到最先进的结果。

ABSTRACT

To achieve the highest perceptual quality, state-of-the-art diffusion models are optimized with objectives that typically look very different from the maximum likelihood and the Evidence Lower Bound (ELBO) objectives. In this work, we reveal that diffusion model objectives are actually closely related to the ELBO. Specifically, we show that all commonly used diffusion model objectives equate to a weighted integral of ELBOs over different noise levels, where the weighting depends on the specific objective used. Under the condition of monotonic weighting, the connection is even closer: the diffusion objective then equals the ELBO, combined with simple data augmentation, namely Gaussian noise perturbation. We show that this condition holds for a number of state-of-the-art diffusion models. In experiments, we explore new monotonic weightings and demonstrate their effectiveness, achieving state-of-the-art FID scores on the high-resolution ImageNet benchmark.

研究动机与目标

  • 激发/说明为什么扩散模型的目标与ELBO不同,以及寻求统一的解释。
  • 证明常用的扩散损失是在噪声水平上带有数据集噪声调度的加权ELBO。
  • 证明单调加权使这些损失等价于带高斯数据增强的ELBO。
  • 提出自适应噪声调度以提高优化效率。
  • 用高分辨率ImageNet的实验证据来验证理论,以达到有竞争力的FID/IS分数。

提出的方法

  • 将扩散目标表述为带有权重函数 w(λ) 的噪声水平上的加权损失。
  • 证明在单调的 w(λ) 下,该损失等于带附加高斯数据增强(DistAug)的ELBO。
  • 将前向过程和噪声调度建立为训练损失的重要性采样分布。
  • 推导将 L_w 与关于 KL 发散 L(t;x) 的积分联系起来的方程,并展示分部积分的简化。
  • 引入自适应噪声调度以降低估计方差并加速优化。
  • 在 ImageNet 上进行经验评估,比较单调权重(如 sigmoidal、EDM-monotonic)与标准基线。
(a) 512 $\times$ 512
(a) 512 $\times$ 512

实验结果

研究问题

  • RQ1扩散模型目标是否可以表示为对噪声水平的加权ELBO?
  • RQ2在何种条件下,加权扩散目标等价于带数据增强的ELBO?
  • RQ3单调权重函数是否带来更高的样本质量和训练效率?
  • RQ4前向过程的自适应调度是否提高优化性能?
  • RQ5提出的单调权重在高分辨率ImageNet基准上的表现如何?

主要发现

  • 多种扩散目标都是带有特定权重函数的噪声水平上的加权损失的特例。
  • 如果权重相对于训练时间单调,则目标等价于带高斯数据增强的ELBO(DistAug)。
  • 诸如 sigmoidal(-λ+2) 和 EDM-monotonic 的单调加权在 ImageNet 64×64 上相较基线提高了 FID 和 IS。
  • 自适应噪声调度降低估计方差并加速优化。
  • 在高分辨率 ImageNet(128×128 及以上)上,提出的单调权重实现了具有竞争力的 FID 和 IS,并在没有外部指导的情况下接近最先进水平。
(b) 256 $\times$ 256
(b) 256 $\times$ 256

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。