[论文解读] On the regularization of Wasserstein GANs
提出一种 Lipschitz 惩罚项(WGAN-LP),用于稳定 Wasserstein GAN 的训练,认为它在稳定性方面优于梯度惩罚(WGAN-GP),且对超参数敏感性较低,并分析正则化选择背后的理论原因。
Since their invention, generative adversarial networks (GANs) have become a popular approach for learning to model a distribution of real (unlabeled) data. Convergence problems during training are overcome by Wasserstein GANs which minimize the distance between the model and the empirical distribution in terms of a different metric, but thereby introduce a Lipschitz constraint into the optimization problem. A simple way to enforce the Lipschitz constraint on the class of functions, which can be modeled by the neural network, is weight clipping. It was proposed that training can be improved by instead augmenting the loss by a regularization term that penalizes the deviation of the gradient of the critic (as a function of the network's input) from one. We present theoretical arguments why using a weaker regularization term enforcing the Lipschitz constraint is preferable. These arguments are supported by experimental results on toy data sets.
研究动机与目标
- 解释为什么正则化 Lipschitz 约束对 WGANs 重要。
- 将梯度惩罚方法(GP)与提出的 Lipschitz 惩罚(LP)进行比较。
- 提供对较弱、更鲁棒的正则化项的理论与经验证据。
- 在玩具数据集和 CIFAR-10 上展示实际的训练改进。
提出的方法
- 回顾 Kantorovich 对偶性和 WGAN 的最优传输基础。
- 引入一个 Lipschitz 正则化项,当 ||∇f(x̂)||-1 为正时对其进行惩罚。
- 提出 WGAN-LP 在带有 LP 惩罚的判别器和生成器之间交替更新。
- 分析使用梯度惩罚和最优耦合时的采样问题。
- 通过理论界限和数据集上的经验训练,将 LP 与 GP 进行比较。
实验结果
研究问题
- RQ1在 WGANs 中强制 Lipschitz 约束为何至关重要,且应如何正则化?
- RQ2实践中单边梯度惩罚与双边惩罚有何不同?
- RQ3提出的 WGAN-LP 相对于 WGAN-GP 是否提供稳定性和对超参数敏感度的降低?
- RQ4当使用来自边际的采样与最优耦合时,使用梯度惩罚会带来哪些理论问题?
- RQ5LP 和 GP 惩罚在像 CIFAR-10 这样的标准基准上的表现如何?
主要发现
- 基于 ||∇f(x̂)|| 惩罚的 Lipschitz 惩罚能改善训练稳定性,优于权重裁剪和 GP 惩罚。
- WGAN-LP 在一系列 λ 值范围内提供更稳定的判别器损失和更好的收敛行为。
- LP 惩罚对超参数选择的敏感性较低,训练过程中对 Wasserstein 距离的估计更好。
- 在 CIFAR-10 上的经验结果在同类情况下显示出与 WGAN-GP 竞争或更好的样本质量。
- 理论论证解释了在最优传输耦合是非确定的或判别器可微性受限时,较弱的正则化(LP)为何更可取。
- 该工作表明从边际采样而非最优耦合会影响梯度行为和判别器的可微性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。