QUICK REVIEW

[论文解读] GANs Trained by a Two Time-Scale Update Rule Converge to a Nash Equilibrium

Martin Heusel, Hubert Ramsauer|arXiv (Cornell University)|Jun 26, 2017

Generative Adversarial Networks and Image Synthesis参考文献 55被引用 371

一句话总结

本文提出了双时间尺度更新规则（TTUR），一种用于生成对抗网络（GANs）的训练方法，该方法为生成器和判别器分别使用不同的学习率。在较弱的假设条件下，TTUR可确保收敛至局部纳什均衡，并在图像生成任务中表现优于标准GAN训练方法，使用弗雷歇 inception 距离（FID）度量在CIFAR-10、CelebA和LSUN Bedrooms数据集上表现更优。

ABSTRACT

Generative Adversarial Networks (GANs) excel at creating realistic images with complex models for which maximum likelihood is infeasible. However, the convergence of GAN training has still not been proved. We propose a two time-scale update rule (TTUR) for training GANs with stochastic gradient descent on arbitrary GAN loss functions. TTUR has an individual learning rate for both the discriminator and the generator. Using the theory of stochastic approximation, we prove that the TTUR converges under mild assumptions to a stationary local Nash equilibrium. The convergence carries over to the popular Adam optimization, for which we prove that it follows the dynamics of a heavy ball with friction and thus prefers flat minima in the objective landscape. For the evaluation of the performance of GANs at image generation, we introduce the Frechet Inception Distance (FID) which captures the similarity of generated images to real ones better than the Inception Score. In experiments, TTUR improves learning for DCGANs and Improved Wasserstein GANs (WGAN-GP) outperforming conventional GAN training on CelebA, CIFAR-10, SVHN, LSUN Bedrooms, and the One Billion Word Benchmark.

研究动机与目标

为解决GAN训练中缺乏理论收敛保证的问题，特别是对于最大似然不可行的复杂模型。
开发一种训练规则，使其在较弱假设下确保收敛至局部纳什均衡。
提升GAN在图像生成任务中的稳定性和性能，尤其与标准随机梯度下降相比。
引入一种新的评估指标——弗雷歇 inception 距离（FID），该指标比Inception Score更能准确捕捉生成图像与真实图像之间的相似性。

提出的方法

提出双时间尺度更新规则（TTUR），为生成器和判别器分配不同的学习率。
应用随机逼近理论，证明在较弱条件下TTUR可收敛至平稳的局部纳什均衡。
分析Adam优化器在损失曲面中遵循带有阻尼的重球动力学，倾向于寻找平坦的极小值。
引入弗雷歇 inception 距离（FID）作为评估GAN性能的新指标，用于度量真实图像与生成图像分布之间的统计相似性。
在标准GAN和改进的WGAN-GP中均采用TTUR，展示了在多个基准测试中的一致性改进。
在包括CelebA、CIFAR-10、SVHN、LSUN Bedrooms以及One Billion Word Benchmark在内的多样化数据集上验证了该方法。

实验结果

研究问题

RQ1TTUR方法是否在较弱假设下确保GAN训练收敛至局部纳什均衡？
RQ2TTUR与标准随机梯度下降相比，在图像生成任务的训练稳定性和性能方面表现如何？
RQ3弗雷歇 inception 距离（FID）是否可作为比Inception Score更可靠的评估GAN生成图像质量的指标？
RQ4当与TTUR结合使用时，Adam优化器是否在GAN损失曲面中倾向于寻找更平坦的极小值，从而提升泛化能力？
RQ5TTUR在CIFAR-10、CelebA和LSUN Bedrooms等多样化数据集上的性能提升程度如何？

主要发现

TTUR在较弱假设下可确保收敛至平稳的局部纳什均衡，为GAN训练的稳定性提供了理论依据。
TTUR在DCGAN和改进的WGAN-GP模型上显著提升了多个数据集（包括CIFAR-10、CelebA和LSUN Bedrooms）的训练性能。
弗雷歇 inception 距离（FID）指标在捕捉图像质量与多样性方面优于Inception Score。
当与TTUR结合使用时，Adam优化器遵循带有阻尼的重球动力学，倾向于在损失曲面中寻找平坦的极小值，从而增强泛化能力。
在One Billion Word Benchmark上的实验表明，TTUR提升了GAN训练性能，表明其适用范围不仅限于图像生成任务。
TTUR在FID得分上始终优于传统GAN训练方法，证实其在多样化基准测试中的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。