QUICK REVIEW

[论文解读] Improving Adversarial Energy-Based Model via Diffusion Process

Cong Geng, Tian Han|arXiv (Cornell University)|Mar 4, 2024

Adversarial Robustness in Machine Learning被引用 2

一句话总结

该论文提出 DDAEBM，一种基于扩散过程的对抗性能量模型，通过将生成过程分解为多个去噪步骤，提升了训练稳定性和生成质量。通过在每个去噪步骤中使用对称 Jeffrey 散度和变分后验进行条件能量模型的训练以估计熵，该方法在 CIFAR-10/SVHN 的分布外检测任务中实现了 SOTA 的 FID（4.82）和 AUROC（0.83），同时实现了无需 MCMC 的训练与采样。

ABSTRACT

Generative models have shown strong generation ability while efficient likelihood estimation is less explored. Energy-based models~(EBMs) define a flexible energy function to parameterize unnormalized densities efficiently but are notorious for being difficult to train. Adversarial EBMs introduce a generator to form a minimax training game to avoid expensive MCMC sampling used in traditional EBMs, but a noticeable gap between adversarial EBMs and other strong generative models still exists. Inspired by diffusion-based models, we embedded EBMs into each denoising step to split a long-generated process into several smaller steps. Besides, we employ a symmetric Jeffrey divergence and introduce a variational posterior distribution for the generator's training to address the main challenges that exist in adversarial EBMs. Our experiments show significant improvement in generation compared to existing adversarial EBMs, while also providing a useful energy function for efficient density estimation.

研究动机与目标

解决由于非对称 KL 散度和不可计算熵项导致的对抗性能量模型（EBM）训练不稳定与分布拟合差的问题。
通过在训练和推理中完全消除 MCMC 采样，克服基于 MCMC 的 EBM 训练计算成本高且不稳定的缺点。
通过将对抗性 EBM 整合到多时间步的去噪扩散框架中，提升样本质量和密度估计性能。
通过学习条件去噪分布而非边缘能量分布，实现高效且稳定的训练。
为下游任务（如分布外检测和半监督学习）提供有效的能量函数。

提出的方法

将对抗性 EBM 整合到去噪扩散过程中，在每个噪声步骤训练一系列能量模型，以建模条件去噪分布。
使用潜在变量 z 定义生成的去噪分布，实现快速采样并改善训练动态。
采用对称 Jeffrey 散度训练生成器，相比非对称 KL 散度，可实现更优的分布匹配。
引入变分后验分布 qψ(z|xt−1, xt) 以可 tractably 估计生成器目标中的熵项。
通过生成器与能量函数之间的 minimax 游戏训练能量函数，完全避免 MCMC 采样。
使用多步去噪过程，将复杂、多模态的数据分布分解为更简单、更易处理的条件学习问题。

实验结果

研究问题

RQ1将对抗性 EBM 整合到扩散过程中，是否能相比标准对抗性 EBM 提升训练稳定性和生成质量？
RQ2使用对称 Jeffrey 散度而非 KL 散度，是否能带来更优的分布匹配与更高的样本质量？
RQ3变分后验分布是否能有效估计对抗性 EBM 训练中不可计算的熵项？
RQ4去噪步数 T 的数量如何影响训练稳定性和生成性能？
RQ5所提模型是否能在保持高效、无需 MCMC 训练过程的同时，在生成和分布外检测任务中实现具有竞争力的性能？

主要发现

所提 DDAEBM 在 CIFAR-10 上实现了 4.82 的 Fréchet Inception Distance（FID），显著优于先前的对抗性 EBM，并与 SOTA 模型相当。
在以 CIFAR-10 为分布内数据、SVHN 为分布外数据的分布外检测任务中，模型实现了 0.83 的 AUROC，证明了其能量函数的高质量。
消融实验表明，若移除潜在变量 z 或改用 KL 散度而非对称 Jeffrey 散度，FID（10.09）和 AUROC（0.23）将显著下降，证明二者具有关键作用。
若移除 log qψ(z|xt−1, xt) 项，性能与基于 KL 的训练相似，表明变分后验对于准确的能量函数学习至关重要。
最优去噪步数 T 为 4，因为 T=4 时训练稳定且性能最佳，而更大的 T 值虽保持训练稳定，却会降低生成质量。
该模型实现了无需 MCMC 的训练与采样，实现了快速推理与稳定优化，与传统基于 MCMC 的 EBM 不同。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。