Skip to main content
QUICK REVIEW

[论文解读] Wasserstein GAN

Martín Arjovsky, Soumith Chintala|arXiv (Cornell University)|Jan 26, 2017
Fibroblast Growth Factor Research被引用 606
一句话总结

论文介绍了 Wasserstein GAN (WGAN),它使用 Earth Mover 距离作为损失来训练生成模型,在理论上给出依据并在经验上证明了训练稳定性提升和模式崩溃减少。

ABSTRACT

We introduce a new algorithm named WGAN, an alternative to traditional GAN training. In this new model, we show that we can improve the stability of learning, get rid of problems like mode collapse, and provide meaningful learning curves useful for debugging and hyperparameter searches. Furthermore, we show that the corresponding optimization problem is sound, and provide extensive theoretical work highlighting the deep connections to other distances between distributions.

研究动机与目标

  • 激励在密度可能不存在且传统的基于 KL 的方法在低维流形上失效时学习分布。
  • 提出基于 Earth Mover 距离(Wasserstein 距离)的 GAN 实际目标,能够产生连续梯度。
  • 展示 WGAN 的理论属性,并在稳定性和模式覆盖方面相对于标准 GAN 显示经验收益。

提出的方法

  • 定义并比较分布之间的距离度量(TV、KL、JS、EM),并论证 EM 更适合在低维流形上的分布。
  • 使用 Kantorovich-Rubinstein 对偶性将 EM 距离表示为对 1-Lipschitz 函数的上确界。
  • 通过权重裁剪将参数化的 1-Lipschitz 函数(critic)近似为 EM 距离,以强制 Lipschitz 连续性。
  • 训练 critic 至近似最优,并通过 critic 的梯度更新生成器以最小化 EM 距离。
  • 提供一种算法(WGAN),在多次 critic 更新和生成器更新之间交替,使用实际可行的超参数。
  • 讨论权重裁剪的局限性,并提出改进 Lipschitz 强制执行的方向。

实验结果

研究问题

  • RQ1优化 Earth Mover 距离是否为训练生成模型提供连续、信息性的梯度?
  • RQ2WGAN 与标准 GAN 在训练稳定性、模式覆盖以及损失与样本质量相关性方面的比较?
  • RQ3哪些实际考虑因素(例如 Lipschitz 约束的强制执行)会影响 WGAN 的性能和稳定性?

主要发现

  • WGAN 提供了一个有意义的损失度量,与生成器收敛和样本质量相关。
  • WGAN 训练更稳定,相比传统 GAN 不易出现模式崩溃。
  • 训练 critic 至最优性可为生成器提供可靠梯度,与之不同的是 GAN 的判别器易饱和并产生消失梯度。
  • 经验上,WGAN 在不同生成器架构下相较于标准 GAN 显示出更强的鲁棒性。
  • EM 距离在几乎所有点连续且可微,支持神经网络中的基于梯度的优化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。