Skip to main content
QUICK REVIEW

[论文解读] GAN and VAE from an Optimal Transport Point of View

Aude Genevay, Gabriel Peyré|arXiv (Cornell University)|Jun 6, 2017
Nuclear reactor physics and engineering参考文献 5被引用 38
一句话总结

本文通过最优传输的视角统一了生成对抗网络(GANs)与变分自编码器(VAEs),将二者均视为最小 Kantorovitch 估计(MKE)问题的解。研究表明,WGAN 与 WVAE 是同一基础最优传输目标的对偶形式,其中 WGAN 通过对偶势函数强调对抗训练,而 WVAE 通过松弛的边缘约束强调自编码,从而解释了二者在训练稳定性与生成质量上的差异。

ABSTRACT

This short article revisits some of the ideas introduced in arXiv:1701.07875 and arXiv:1705.07642 in a simple setup. This sheds some lights on the connexions between Variational Autoencoders (VAE), Generative Adversarial Networks (GAN) and Minimum Kantorovitch Estimators (MKE).

研究动机与目标

  • 通过在最优传输框架下将 GANs 与 VAEs 均解释为最小 Kantorovitch 估计(MKE)的实例,统一二者理论理解。
  • 阐明对抗训练(WGAN)与自编码(WVAE)在相同最优传输问题的原始与对偶形式之间的对偶关系。
  • 通过原始与对偶形式中梯度计算的差异,解释为何 GANs 生成图像更清晰,而 VAEs 训练更稳定。
  • 分析 VAEs 中通过参数化编码器映射实现的边缘约束松弛作用,及其对 WVAE 形式中收敛性与偏差的影响。
  • 研究在非参数极限下,WGAN 与 WVAE 是否收敛至真实 MKE 解,以及该收敛性的实际意义。

提出的方法

  • 将 GANs 与 VAEs 均形式化为最小 Kantorovitch 估计器(MKE)问题,通过最小化生成分布与经验数据之间的 Wasserstein 距离。
  • 利用 Kantorovich 势函数推导 MKE 问题的对偶形式,使深度神经网络可作为 WGAN 框架中的判别器使用。
  • 通过将对偶势函数 $ h_{ heta} $ 参数化为深度神经网络,提出 Wasserstein-GAN(WGAN),从而在生成器与判别器参数上形成极小化-极大化优化问题。
  • 通过松弛耦合测度上的边缘约束,引入 Wasserstein-VAE(WVAE),并利用参数化编码器 $ f_{ heta} $ 定义从数据空间到潜在空间的传输映射。
  • 利用 $ c $-变换简化对偶问题,使 WGAN 设置下可使用随机梯度下降优化对偶势函数。
  • 在 WVAE 中引入一种松弛的、非平衡的最优传输形式,通过发散项 $ D(f_{ heta lat} u igracevert ho) $ 实现灵活且可微的训练,同时引入潜在空间正则化。

实验结果

研究问题

  • RQ1如何基于最优传输理论,将 GANs 与 VAEs 统一于同一理论框架之下?
  • RQ2在深度生成建模背景下,最优传输的原始(MKE)与对偶(WGAN)形式之间存在何种关系?
  • RQ3为何 VAE 训练比 GAN 更稳定?这与原始与对偶形式中梯度计算的差异有何关联?
  • RQ4在 WVAE 中松弛边缘约束的影响是什么?它如何影响估计器的偏差与收敛性?
  • RQ5在非参数极限下,WGAN 与 WVAE 是否收敛至同一解?其实际意义为何?

主要发现

  • WGAN 与 WVAE 形式互为对偶:WGAN 通过对抗势函数优化对偶问题,而 WVAE 通过松弛的边缘约束优化原始问题。
  • 原始梯度公式(5)比对偶梯度公式(3)更稳定,后者需精确优化对偶势函数 $ h^ lat $,这解释了 VAE 相较 GAN 更具经验稳定性的原因。
  • 在 $ heta \to \theta_{\text{MKE}} $ 的极限下,WGAN 解满足 $ E(\theta_{\text{WGAN}}) \triangleq W_c(g_{\theta}\flat \rho, \nu) \triangleq \text{min} $,而 WVAE 因松弛引入偏差,导致 $ E(\theta_{\text{WVAE}}) \triangleq \text{min} $,其中 $ \theta_{\text{WVAE}} $ 为有偏估计器。
  • 在非参数极限下($ h_\theta $ 与 $ f_\theta $ 具备无限容量,且 $ \theta \to \theta_{\text{MKE}} $),WGAN 与 WVAE 均收敛至与真实 MKE 相同的解,表明二者在极限下具有理论等价性。
  • 尽管理论收敛成立,实际收敛速度可能较慢,且在复杂数据集上非参数极限可能无法产生良好估计器,暗示通过非凸优化实现的隐式正则化具有实际优势。
  • 在最小化 Wasserstein 距离方面,WGAN 目标严格优于 MKE 目标,而 WVAE 目标因松弛项而严格更差,导致 $ E(\theta_{\text{WGAN}}) \triangleq \text{min} \triangleq E(\theta_{\text{MKE}}) \triangleq E(\theta_{\text{WVAE}}) $。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。