QUICK REVIEW
[论文解读] Comparison of Maximum Likelihood and GAN-based training of Real NVPs
Ivo Danihelka, Balaji Lakshminarayanan|arXiv (Cornell University)|May 15, 2017
Model Reduction and Neural Networks参考文献 16被引用 41
一句话总结
本文比较了在 Real NVP 上使用最大似然估计(MLE)和 Wasserstein GAN(WGAN)训练的效果,Real NVP 是一种具有精确对数概率计算的流模型。研究发现,尽管对数概率密度较差,但 WGAN 训练的生成器仍能生成更具全局一致性的样本,并证明了独立判别器可通过近似 Wasserstein 距离检测过拟合,从而实现更优的模型评估,并提出一种新型快速学习判别器以实现高效训练。
ABSTRACT
We train a generator by maximum likelihood and we also train the same generator architecture by Wasserstein GAN. We then compare the generated samples, exact log-probability densities and approximate Wasserstein distances. We show that an independent critic trained to approximate Wasserstein distance between the validation set and the generator distribution helps detect overfitting. Finally, we use ideas from the one-shot learning literature to develop a novel fast learning critic.
研究动机与目标
- 比较最大似然与基于 GAN 的训练在 Real NVP 中的表现,Real NVP 是一种具有精确对数概率计算的归一化流模型。
- 评估 WGAN 训练是否在对数似然可能更差的情况下,仍能生成质量更高的样本。
- 探究独立判别器在近似 Wasserstein 距离方面检测过拟合及比较模型的实用性。
- 开发并评估一种快速学习判别器,以在不损害生成样本质量的前提下提升训练效率。
提出的方法
- 使用 Real NVP 作为生成器,通过可逆的三角雅可比变换实现对数概率密度的精确计算。
- 使用相同的生成器架构,分别采用 MLE(最大化对数似然)和 WGAN(最小化判别器近似的 Wasserstein 距离)进行训练。
- 采用独立判别器网络在验证集上估计生成器分布与真实数据分布之间的 Wasserstein 距离。
- 提出一种快速学习判别器,通过减少更新频率并利用先前的判别器状态来降低梯度计算开销,从而在保持性能的同时提升效率。
- 在两种训练范式中均使用相同的生成器架构(NVP1、NVP2、NVP3),以确保公平比较。
- 通过精确的对数概率密度、样本视觉质量以及独立判别器提供的近似 Wasserstein 距离对结果进行验证。
实验结果
研究问题
- RQ1在 Real NVP 中,WGAN 训练是否即使对数概率密度较差,也能生成比 MLE 训练更连贯的样本?
- RQ2能否通过训练独立判别器来近似 Wasserstein 距离,从而检测 MLE 和 WGAN 训练生成器的过拟合现象?
- RQ3在使用 WGAN 与 MLE 训练 Real NVP 时,是否存在对数概率密度与样本质量之间的权衡?
- RQ4快速学习判别器是否能在不降低样本质量的前提下提升流模型生成模型的训练效率?
- RQ5MLE 与 WGAN 训练范式下,训练集与验证集之间的近似 Wasserstein 距离如何比较?
主要发现
- 尽管架构较浅(NVP1),WGAN 训练的生成器仍能生成比 MLE 训练生成器更具全局一致性的样本,表明其结构生成能力更强。
- WGAN 训练生成器的负对数概率密度甚至劣于均匀分布,表明似然性并非样本质量的可靠代理指标。
- 独立判别器提供的近似 Wasserstein 距离能正确对 MLE 训练的生成器进行排序,证明其在模型比较中的实用性。
- 生成器分布与训练数据之间的近似 Wasserstein 距离小于其与验证集之间的距离,表明 MLE 和 WGAN 训练均存在过拟合现象。
- 快速学习判别器通过减少判别器更新次数,实现了稳定训练,同时使生成器能够生成与标准训练相当质量的样本。
- WGAN 生成器的雅可比矩阵秩较低,表明生成分布位于低维流形上,与理论预测一致。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。