QUICK REVIEW

[论文解读] Maximum Likelihood Training of Score-Based Diffusion Models

Yang Song, Conor Durkan|arXiv (Cornell University)|Jan 22, 2021

Advanced Neuroimaging Techniques and Applications参考文献 54被引用 46

一句话总结

该论文推导出一个似然加权目标，对分数基扩散模型的负对数似然提供上界，使得近似最大似然训练成为可能，从而在多数据集和SDEs上提升模型似然，在CIFAR-10和ImageNet32x32上以未增量增强的方式实现有竞争力的比特/维度性能。

ABSTRACT

Score-based diffusion models synthesize samples by reversing a stochastic process that diffuses data to noise, and are trained by minimizing a weighted combination of score matching losses. The log-likelihood of score-based diffusion models can be tractably computed through a connection to continuous normalizing flows, but log-likelihood is not directly optimized by the weighted combination of score matching losses. We show that for a specific weighting scheme, the objective upper bounds the negative log-likelihood, thus enabling approximate maximum likelihood training of score-based diffusion models. We empirically observe that maximum likelihood training consistently improves the likelihood of score-based diffusion models across multiple datasets, stochastic processes, and model architectures. Our best models achieve negative log-likelihoods of 2.83 and 3.76 bits/dim on CIFAR-10 and ImageNet 32x32 without any data augmentation, on a par with state-of-the-art autoregressive models on these tasks.

研究动机与目标

通过把带权重的得分匹配损失与负对数似然的上界联系起来，激发并实现分数基扩散模型（SBDMs）的更高似然性训练。
引入似然加权（lambda(t) = g(t)^2），使界限更紧，提升模型似然性。
给出将SDE/ODE公式与似然性联系起来的理论保证，并提出用于实际训练的方差减少和变分技术。
展示跨数据集、SDE族（VE/VP/subVP）和模型架构的对数似然提升，并在CIFAR-10和ImageNet-32x32上取得有竞争力的结果。

提出的方法

将带前向SDE和反向时间SDE的分数基扩散模型公式化，并将随时间变化的分数定义为由神经网络学习。
证明在似然加权 lambda(t) = g(t)^2 下，加权分数匹配目标对模型 p_theta^SDE 的KL散度上界，从而关联到负对数似然的优化。
在某些条件下，当分数等于真实的随时间的分数时，证明 p_theta^SDE 与 p_theta^ODE（CNF）之间的等价性。
通过 L^SM_theta(x) 和 L^DSM_theta(x) 为单个数据点提供实际界限，以实现高效的估计和训练。
通过使用一个很小的 epsilon > 0 来处理数值稳定性，并讨论通过 Jensen 不等式的偏差校正。
通过重要性采样引入方差约简，以降低来自似然加权的高方差，并与变分去量化相结合以提升似然性。

实验结果

研究问题

RQ1似然加权是否能为基于分数的扩散模型的负对数似然提供一个有原则的上界？
RQ2在不同数据集和SDE类型下，优化带权得分匹配目标是否会提升 p_theta^SDE 与 p_theta^ODE 的实际对数似然？
RQ3在何种条件下，似然上界是紧密的或等价于真实数据分数动力学？
RQ4在训练中使用似然加权时如何控制方差，重要性采样和变分去量化是否还能进一步提升似然性？

主要发现

似然加权（lambda(t) = g(t)^2）对数据到 p_theta^SDE 的KL散度上界，使得可进行近似最大似然训练。
在多数据集、SDE类型（VE/VP/subVP）和模型架构上，使用似然加权进行训练不断提升 p_theta^SDE 的似然性。
在实验中，该方法在不使用数据增强的情况下获得具有竞争力的对数似然性（CIFAR-10 为 2.83 比特/维度，ImageNet-32x32 为 3.76 比特/维度），与最先进的自回归模型不相上下。
理论结果通过概率流动ODE将基于SDE的SBDMs与CNF建立联系，并在严格分数匹配下显示与CNF似然等价。
通过重要性采样有效降低带权似然固有的方差，提升训练稳定性和性能。
该方法在不牺牲标准的Fréchet Inception Distance 指标太多的情况下实现更高质量的似然估计。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。