Skip to main content
QUICK REVIEW

[论文解读] Adversarial score matching and improved sampling for image generation

Alexia Jolicoeur‐Martineau, Remi Piché-Taillefer|arXiv (Cornell University)|Sep 11, 2020
Generative Adversarial Networks and Image Synthesis参考文献 50被引用 30
一句话总结

论文通过 Consistent Annealed Sampling 与混合对抗目标,在去噪分数匹配方面取得改进,实现采样器稳定性并在 CIFAR-10 与 LSUN-churches 上获得具有竞争力的 FID,同时保持样本多样性。

ABSTRACT

Denoising Score Matching with Annealed Langevin Sampling (DSM-ALS) has recently found success in generative modeling. The approach works by first training a neural network to estimate the score of a distribution, and then using Langevin dynamics to sample from the data distribution assumed by the score network. Despite the convincing visual quality of samples, this method appears to perform worse than Generative Adversarial Networks (GANs) under the Fréchet Inception Distance, a standard metric for generative models. We show that this apparent gap vanishes when denoising the final Langevin samples using the score network. In addition, we propose two improvements to DSM-ALS: 1) Consistent Annealed Sampling as a more stable alternative to Annealed Langevin Sampling, and 2) a hybrid training formulation, composed of both Denoising Score Matching and adversarial objectives. By combining these two techniques and exploring different network architectures, we elevate score matching methods and obtain results competitive with state-of-the-art image generation on CIFAR-10.

研究动机与目标

  • 为基于分数的生成建模中的更高质量和更稳定采样,激发对 DSM-ALS 的改进。
  • 引入 Consistent Annealed Sampling (CAS),以在采样过程中确保稳定、几何一致的噪声尺度。
  • 提出一种混合训练目标,结合去噪分数匹配与对抗目标,以提高样本真实感。
  • 表明对最终 Langevin 样本进行去噪 (EDS) 可提高与数据流形的对齐并降低 FID。
  • 通过消融实验证明这些方法在标准基准上实现了具有竞争力的最先进结果。

提出的方法

  • 回顾并在去噪分数匹配 (DSM) 与退火 Langevin 采样 (ALS) 的基础上开展工作。
  • 提出 Consistent Annealed Sampling (CAS),以保证在采样期间遵循预定的噪声时间表。
  • 给出 Expected Denoised Sample (EDS) 的公式,用于对最终 Langevin 输出进行去噪,并通过更新规则整合。
  • 引入一个混合目标,在 EDS 输出上使用判别器 (LSGAN) 同时优化分数匹配和对抗真实感。
  • 在 CIFAR-10 和 LSUN-Churches 上对 Song 与 Ermon (2019) 与 Ho 等人 (2020) 的分数网络进行实验,以评估改进。
  • 给出消融研究以量化 CAS、去噪和对抗训练的影响。

实验结果

研究问题

  • RQ1Consistent Annealed Sampling (CAS) 是否在采样期间产生的噪声轨迹与几何时间表对齐,从而改善稳定性和样本质量?
  • RQ2对最终 Langevin 样本进行去噪 (EDS) 是否始终提高 FID 并更接近数据流形?
  • RQ3将去噪分数匹配与对抗训练结合的混合目标,是否能在质量和多样性方面超过非对抗的 DSM?
  • RQ4架构选择如何影响 CAS 与对抗分数匹配方法在标准数据集上的有效性?
  • RQ5在像 3-Stacked MNIST 这样的挑战性模式覆盖任务中,对抗与非对抗分数网络是否实现了可比的多样性?

主要发现

  • CAS 确保噪声方差在每个采样步骤都遵循预定的几何时间表,从而提高稳定性。
  • 对最终 Langevin 样本进行去噪 (EDS) 可以降低 FID,并使样本更好地与数据流形对齐。
  • 结合分数匹配与对抗训练的混合目标在某些架构和数据集上提高了样本真实感。
  • 在 CIFAR-10 与 LSUN-Churches 上,采用 CAS 与去噪的方法比非 CAS 与非去噪基线 yields 较低的 FID,且对抗变体在某些架构上显示出更高质量。
  • 该方法保持样本多样性,在 3-Stacked MNIST 上实现了完整模式覆盖,无论是非对抗还是对抗分数网络。
  • 架构差异(Song–Ermon 与 Ho 等人)影响对抗训练的收益幅度,某些架构并未显示出对抗损失的提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。