QUICK REVIEW

[论文解读] GAN and VAE from an Optimal Transport Point of View

Aude Genevay, Gabriel Peyré|arXiv (Cornell University)|Jun 6, 2017

Nuclear reactor physics and engineering参考文献 5被引用 38

一句话总结

本文通过最优传输的视角统一了生成对抗网络（GANs）与变分自编码器（VAEs），将二者均视为最小 Kantorovitch 估计（MKE）问题的解。研究表明，WGAN 与 WVAE 是同一基础最优传输目标的对偶形式，其中 WGAN 通过对偶势函数强调对抗训练，而 WVAE 通过松弛的边缘约束强调自编码，从而解释了二者在训练稳定性与生成质量上的差异。

ABSTRACT

This short article revisits some of the ideas introduced in arXiv:1701.07875 and arXiv:1705.07642 in a simple setup. This sheds some lights on the connexions between Variational Autoencoders (VAE), Generative Adversarial Networks (GAN) and Minimum Kantorovitch Estimators (MKE).

研究动机与目标

通过在最优传输框架下将 GANs 与 VAEs 均解释为最小 Kantorovitch 估计（MKE）的实例，统一二者理论理解。
阐明对抗训练（WGAN）与自编码（WVAE）在相同最优传输问题的原始与对偶形式之间的对偶关系。
通过原始与对偶形式中梯度计算的差异，解释为何 GANs 生成图像更清晰，而 VAEs 训练更稳定。
分析 VAEs 中通过参数化编码器映射实现的边缘约束松弛作用，及其对 WVAE 形式中收敛性与偏差的影响。
研究在非参数极限下，WGAN 与 WVAE 是否收敛至真实 MKE 解，以及该收敛性的实际意义。

提出的方法

将 GANs 与 VAEs 均形式化为最小 Kantorovitch 估计器（MKE）问题，通过最小化生成分布与经验数据之间的 Wasserstein 距离。
利用 Kantorovich 势函数推导 MKE 问题的对偶形式，使深度神经网络可作为 WGAN 框架中的判别器使用。
通过将对偶势函数 $ h_{ heta} $ 参数化为深度神经网络，提出 Wasserstein-GAN（WGAN），从而在生成器与判别器参数上形成极小化-极大化优化问题。
通过松弛耦合测度上的边缘约束，引入 Wasserstein-VAE（WVAE），并利用参数化编码器 $ f_{ heta} $ 定义从数据空间到潜在空间的传输映射。
利用 $ c $-变换简化对偶问题，使 WGAN 设置下可使用随机梯度下降优化对偶势函数。
在 WVAE 中引入一种松弛的、非平衡的最优传输形式，通过发散项 $ D(f_{ hetalat} u igracevert ho) $ 实现灵活且可微的训练，同时引入潜在空间正则化。

实验结果

研究问题

RQ1如何基于最优传输理论，将 GANs 与 VAEs 统一于同一理论框架之下？
RQ2在深度生成建模背景下，最优传输的原始（MKE）与对偶（WGAN）形式之间存在何种关系？
RQ3为何 VAE 训练比 GAN 更稳定？这与原始与对偶形式中梯度计算的差异有何关联？
RQ4在 WVAE 中松弛边缘约束的影响是什么？它如何影响估计器的偏差与收敛性？
RQ5在非参数极限下，WGAN 与 WVAE 是否收敛至同一解？其实际意义为何？

主要发现

WGAN 与 WVAE 形式互为对偶：WGAN 通过对抗势函数优化对偶问题，而 WVAE 通过松弛的边缘约束优化原始问题。
原始梯度公式（5）比对偶梯度公式（3）更稳定，后者需精确优化对偶势函数 $ h^lat $，这解释了 VAE 相较 GAN 更具经验稳定性的原因。
在 $ heta \to \theta_{\text{MKE}} $ 的极限下，WGAN 解满足 $ E(\theta_{\text{WGAN}}) \triangleq W_c(g_{\theta}\flat \rho, \nu) \triangleq \text{min} $，而 WVAE 因松弛引入偏差，导致 $ E(\theta_{\text{WVAE}}) \triangleq \text{min} $，其中 $ \theta_{\text{WVAE}} $ 为有偏估计器。
在非参数极限下（$ h_\theta $ 与 $ f_\theta $ 具备无限容量，且 $ \theta \to \theta_{\text{MKE}} $），WGAN 与 WVAE 均收敛至与真实 MKE 相同的解，表明二者在极限下具有理论等价性。
尽管理论收敛成立，实际收敛速度可能较慢，且在复杂数据集上非参数极限可能无法产生良好估计器，暗示通过非凸优化实现的隐式正则化具有实际优势。
在最小化 Wasserstein 距离方面，WGAN 目标严格优于 MKE 目标，而 WVAE 目标因松弛项而严格更差，导致 $ E(\theta_{\text{WGAN}}) \triangleq \text{min} \triangleq E(\theta_{\text{MKE}}) \triangleq E(\theta_{\text{WVAE}}) $。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。