QUICK REVIEW

[论文解读] The Unusual Effectiveness of Averaging in GAN Training

Yasin Yazıcı, Chuan-Sheng Foo|arXiv (Cornell University)|Jun 12, 2018

Advanced Neural Network Applications参考文献 40被引用 66

一句话总结

本文研究 GAN 参数的移动平均（MA）和指数移动平均（EMA），指出 EMA 会使训练更稳定，在多种数据集和架构上提升性能，并提供理论见解和大量实验。

ABSTRACT

We examine two different techniques for parameter averaging in GAN training. Moving Average (MA) computes the time-average of parameters, whereas Exponential Moving Average (EMA) computes an exponentially discounted sum. Whilst MA is known to lead to convergence in bilinear settings, we provide the -- to our knowledge -- first theoretical arguments in support of EMA. We show that EMA converges to limit cycles around the equilibrium with vanishing amplitude as the discount parameter approaches one for simple bilinear games and also enhances the stability of general GAN training. We establish experimentally that both techniques are strikingly effective in the non-convex-concave GAN setting as well. Both improve inception and FID scores on different architectures and for different GAN objectives. We provide comprehensive experimental results across a range of datasets -- mixture of Gaussians, CIFAR-10, STL-10, CelebA and ImageNet -- to demonstrate its effectiveness. We achieve state-of-the-art results on CIFAR-10 and produce clean CelebA face images.\footnote{~The code is available at \url{https://github.com/yasinyazici/EMA_GAN}}

研究动机与目标

激励采用简单的外部平均策略来应对 GAN 训练中的循环与不稳定性，而不改变博弈动力学。
分析并比较在外部训练循环中的正则化效果的移动平均（MA）与指数移动平均（EMA）。
为 EMA 的稳定化效应提供理论依据，并展示在多数据集和 GAN 目标上的经验提升。

提出的方法

在 GAN 训练过程中对生成器/判别器参数定义移动平均（MA）和指数移动平均（EMA）。
推导 EMA 更新规则 theta_EMA^(t) = beta * theta_EMA^(t-1) + (1 - beta) * theta^(t)，并与 MA 对比。
在双线性鞍点设定下给出理论分析，表明 EMA 能降低振荡幅度而不强制收敛到均衡点。
将分析扩展到非双线性、非凸-凹 GANs 的纳什均衡附近的局部稳定性。
在高斯混合、CIFAR-10、STL-10、CelebA、ImageNet 等数据上，使用原始 GAN 和 Wasserstein-1 目标、ADAM 优化器及交替更新，进行大量实验。
将 EMA/MA 与基线、乐观 Adam（OMD）、一致性优化（CO）以及零中心梯度惩罚（Zero-GP）等方法进行对比。

实验结果

研究问题

RQ1EMA 是否能在 GAN 训练中稳定围绕均衡点的循环，并且在双线性与非双线性设置下其作用与 MA 有何异同？
RQ2EMA 与 MA 在不同数据集、架构与目标下是否能提升 GAN 性能（IS 和 FID），而不改变潜在的博弈动力学？
RQ3EMA 与 MA 如何与其他稳定化方法（OMD、CO、Zero-GP）在非凸/凹 GAN 上相互作用？
RQ4关于 EMA 对 GAN 训练中近似均衡的雅可比矩阵动力学有何理论含义？
RQ5对于超参数（beta、起点）以及跨数据集的评估，能给出哪些实际指导？

主要发现

EMA 通过缩小在双线性博弈中的均衡点周围的振荡幅度来稳定循环行为，并在非双线性情形下保持局部稳定的不动点稳定性。
在 CIFAR-10、STL-10、CelebA、ImageNet 上，与未平均化的模型和 MA 相比，EMA 提高了 Inception Score 和 FID。
EMA 的性能通常优于 MA，在不同数据集和架构上表现出更鲁棒的提升；当对窗口进行过长的平均时，MA 可能削弱性能。
在高斯混合数据上，EMA 相较基线和其他平均方法具有更低的 Wasserstein-1 距离，表明更均衡的模态覆盖。
定性地看，EMA 能减少伪影，在 CelebA 与 CIFAR-10 的生成图像上呈现更平滑的演化；MA 在较长的平均窗口下可能引入降级。
在所测试的设置下，该研究报告了接近于最先进水平的 CIFAR-10 与干净 CelebA 面孔的结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。