QUICK REVIEW
[论文解读] GAN and VAE from an Optimal Transport Point of View
Aude Genevay, Gabriel Peyré|arXiv (Cornell University)|Jun 6, 2017
Nuclear reactor physics and engineering参考文献 5被引用 38
一句话总结
本文通过最优传输的视角统一了生成对抗网络(GANs)与变分自编码器(VAEs),将二者均视为最小 Kantorovitch 估计(MKE)问题的解。研究表明,WGAN 与 WVAE 是同一基础最优传输目标的对偶形式,其中 WGAN 通过对偶势函数强调对抗训练,而 WVAE 通过松弛的边缘约束强调自编码,从而解释了二者在训练稳定性与生成质量上的差异。
ABSTRACT
This short article revisits some of the ideas introduced in arXiv:1701.07875 and arXiv:1705.07642 in a simple setup. This sheds some lights on the connexions between Variational Autoencoders (VAE), Generative Adversarial Networks (GAN) and Minimum Kantorovitch Estimators (MKE).
研究动机与目标
- 通过在最优传输框架下将 GANs 与 VAEs 均解释为最小 Kantorovitch 估计(MKE)的实例,统一二者理论理解。
- 阐明对抗训练(WGAN)与自编码(WVAE)在相同最优传输问题的原始与对偶形式之间的对偶关系。
- 通过原始与对偶形式中梯度计算的差异,解释为何 GANs 生成图像更清晰,而 VAEs 训练更稳定。
- 分析 VAEs 中通过参数化编码器映射实现的边缘约束松弛作用,及其对 WVAE 形式中收敛性与偏差的影响。
- 研究在非参数极限下,WGAN 与 WVAE 是否收敛至真实 MKE 解,以及该收敛性的实际意义。
提出的方法
- 将 GANs 与 VAEs 均形式化为最小 Kantorovitch 估计器(MKE)问题,通过最小化生成分布与经验数据之间的 Wasserstein 距离。
- 利用 Kantorovich 势函数推导 MKE 问题的对偶形式,使深度神经网络可作为 WGAN 框架中的判别器使用。
- 通过将对偶势函数 $ h_{ heta} $ 参数化为深度神经网络,提出 Wasserstein-GAN(WGAN),从而在生成器与判别器参数上形成极小化-极大化优化问题。
- 通过松弛耦合测度上的边缘约束,引入 Wasserstein-VAE(WVAE),并利用参数化编码器 $ f_{ heta} $ 定义从数据空间到潜在空间的传输映射。
- 利用 $ c $-变换简化对偶问题,使 WGAN 设置下可使用随机梯度下降优化对偶势函数。
- 在 WVAE 中引入一种松弛的、非平衡的最优传输形式,通过发散项 $ D(f_{ hetalat} u igracevert ho) $ 实现灵活且可微的训练,同时引入潜在空间正则化。
实验结果
研究问题
- RQ1如何基于最优传输理论,将 GANs 与 VAEs 统一于同一理论框架之下?
- RQ2在深度生成建模背景下,最优传输的原始(MKE)与对偶(WGAN)形式之间存在何种关系?
- RQ3为何 VAE 训练比 GAN 更稳定?这与原始与对偶形式中梯度计算的差异有何关联?
- RQ4在 WVAE 中松弛边缘约束的影响是什么?它如何影响估计器的偏差与收敛性?
- RQ5在非参数极限下,WGAN 与 WVAE 是否收敛至同一解?其实际意义为何?
主要发现
- WGAN 与 WVAE 形式互为对偶:WGAN 通过对抗势函数优化对偶问题,而 WVAE 通过松弛的边缘约束优化原始问题。
- 原始梯度公式(5)比对偶梯度公式(3)更稳定,后者需精确优化对偶势函数 $ h^lat $,这解释了 VAE 相较 GAN 更具经验稳定性的原因。
- 在 $ heta \to \theta_{\text{MKE}} $ 的极限下,WGAN 解满足 $ E(\theta_{\text{WGAN}}) \triangleq W_c(g_{\theta}\flat \rho, \nu) \triangleq \text{min} $,而 WVAE 因松弛引入偏差,导致 $ E(\theta_{\text{WVAE}}) \triangleq \text{min} $,其中 $ \theta_{\text{WVAE}} $ 为有偏估计器。
- 在非参数极限下($ h_\theta $ 与 $ f_\theta $ 具备无限容量,且 $ \theta \to \theta_{\text{MKE}} $),WGAN 与 WVAE 均收敛至与真实 MKE 相同的解,表明二者在极限下具有理论等价性。
- 尽管理论收敛成立,实际收敛速度可能较慢,且在复杂数据集上非参数极限可能无法产生良好估计器,暗示通过非凸优化实现的隐式正则化具有实际优势。
- 在最小化 Wasserstein 距离方面,WGAN 目标严格优于 MKE 目标,而 WVAE 目标因松弛项而严格更差,导致 $ E(\theta_{\text{WGAN}}) \triangleq \text{min} \triangleq E(\theta_{\text{MKE}}) \triangleq E(\theta_{\text{WVAE}}) $。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。