Skip to main content
QUICK REVIEW

[论文解读] From GAN to WGAN

Lilian Weng|arXiv (Cornell University)|Apr 18, 2019
Generative Adversarial Networks and Image Synthesis被引用 23
一句话总结

本文提出 Wasserstein GAN(WGAN),一种通过将原始 GAN 的 Jensen-Shannon 散度替换为 Wasserstein 距离以稳定训练的 GAN 变体。通过在判别器上施加权重裁剪以实现利普希茨连续性,并使用 Wasserstein 损失的对偶形式,WGAN 提供了更平滑、更有意义的梯度信号,从而在真实分布与生成分布无重叠时也能实现更稳定的训练和收敛。

ABSTRACT

This paper explains the math behind a generative adversarial network (GAN) model and why it is hard to be trained. Wasserstein GAN is intended to improve GANs' training by adopting a smooth metric for measuring the distance between two probability distributions.

研究动机与目标

  • 解决标准 GAN 因使用非光滑散度(如 JS 和 KL)而导致的训练不稳定与不收敛问题。
  • 提出基于 Wasserstein 距离的训练目标,该距离能提供更合理且连续的分布差异度量。
  • 即使真实数据分布与生成数据分布的重叠极小或完全无重叠,也能实现稳定训练。
  • 证明 Wasserstein 距离在分布不相交的情况下仍保持平滑且可微,而 JS 散度则不然。
  • 提出一种实用方法——权重裁剪——以在深度学习设置中强制实现 Wasserstein 度量所要求的利普希茨约束。

提出的方法

  • 用真实数据分布 $p_r$ 与生成器分布 $p_g$ 之间的 Wasserstein 距离替换 GAN 的损失函数,其定义为 $W(p_r, p_g) = \sup_{\|f\|_L \leq K} \mathbb{E}_{x\sim p_r}[f(x)] - \mathbb{E}_{x\sim p_g}[f(x)]$。
  • 利用 Kantorovich-Rubinstein 对偶性,将 Wasserstein 距离转化为对 K-利普希茨连续判别函数 $f_w$ 的可处理优化问题。
  • 通过在每次梯度更新后将判别器网络的权重裁剪至固定范围 $[-c, c]$,强制实现判别器的 K-利普希茨条件。
  • 将原始 GAN 中基于 sigmoid 的判别器输出替换为直接估计 Wasserstein 距离的判别器,从而无需使用对数概率。
  • 为提升训练稳定性,使用 RMSProp 优化器训练判别器,而非像 Adam 这类基于动量的优化器。
  • 将判别器视为 Wasserstein 距离的特征提取器,而非二分类器,从而将目标从分类转变为度量学习。

实验结果

研究问题

  • RQ1为何标准 GAN 会因训练不稳定和模式崩溃而失效,且发散度度量的选择在其中起到了何种作用?
  • RQ2当分布不相交时,Wasserstein 距离与 JS 和 KL 散度相比,在度量分布差异方面有何不同?
  • RQ3一个用于估计 Wasserstein 距离的判别器网络,能否为生成器提供比标准判别器更稳定、更丰富的梯度信号?
  • RQ4在深度神经网络中,应采用何种实用方法来强制实现 Wasserstein 度量所要求的利普希茨连续性约束?
  • RQ5用基于 Wasserstein 的目标替代 GAN 损失是否能带来更好的训练收敛性和生成样本质量?

主要发现

  • 即使真实分布与生成分布无重叠,Wasserstein 距离仍能提供平滑、连续且有意义的分布差异度量,而 JS 散度则可能变得未定义或不连续。
  • 通过权重裁剪强制实现判别器的 K-利普希茨连续性,可实现 WGAN 的稳定训练,尽管作者承认该方法并非最优。
  • 源自 Wasserstein 距离对偶形式的 WGAN 损失函数与样本质量的相关性更强,并在训练过程中提供稳定且不消失的梯度信号。
  • 实证结果表明,与标准 GAN 相比,WGAN 在训练稳定性和收敛性方面表现更优,尤其是在数据分布无重叠的场景中。
  • WGAN 中的判别器不再输出概率,而是直接估计 Wasserstein 距离,该估计与生成样本的实际质量相关性更好。
  • 本文指出,尽管权重裁剪有效,但其作为强制实现利普希茨约束的方法效果较差,未来工作应探索如梯度惩罚等替代方案。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。