QUICK REVIEW

[论文解读] Generative Adversarial Networks as Variational Training of Energy Based Models

Shuangfei Zhai, Yu Cheng|arXiv (Cornell University)|Nov 6, 2016

Generative Adversarial Networks and Image Synthesis参考文献 14被引用 18

一句话总结

本文提出了变分生成对抗网络（VGANs），一种将生成对抗网络重新表述为能量模型（EBM）的变分训练框架，实现了无需MCMC采样的深度EBM的稳定训练。通过最小化负对数似然的变分下界，并引入基于转移的生成器的变分对比发散，VGANs实现了高保真度、多样化的图像生成，以及在半监督学习中的有效数据增强。

ABSTRACT

In this paper, we study deep generative models for effective unsupervised learning. We propose VGAN, which works by minimizing a variational lower bound of the negative log likelihood (NLL) of an energy based model (EBM), where the model density $p(\mathbf{x})$ is approximated by a variational distribution $q(\mathbf{x})$ that is easy to sample from. The training of VGAN takes a two step procedure: given $p(\mathbf{x})$, $q(\mathbf{x})$ is updated to maximize the lower bound; $p(\mathbf{x})$ is then updated one step with samples drawn from $q(\mathbf{x})$ to decrease the lower bound. VGAN is inspired by the generative adversarial networks (GANs), where $p(\mathbf{x})$ corresponds to the discriminator and $q(\mathbf{x})$ corresponds to the generator, but with several notable differences. We hence name our model variational GANs (VGANs). VGAN provides a practical solution to training deep EBMs in high dimensional space, by eliminating the need of MCMC sampling. From this view, we are also able to identify causes to the difficulty of training GANs and propose viable solutions. \footnote{Experimental code is available at https://github.com/Shuangfei/vgan}

研究动机与目标

解决由于分区函数不可计算和高维积分导致的深度能量模型（EBM）训练不稳定与困难问题。
建立生成对抗网络（GANs）与EBM中变分推断之间的理论联系，揭示GANs本质上是一种变分训练形式。
通过识别生成器分布中缺失的熵项，解决GANs中的模式崩溃问题，并提出基于转移建模的解决方案。
通过消除对马尔可夫链蒙特卡洛（MCMC）采样的依赖，实现高维空间中深度EBM的实用且可扩展的训练。
展示所学习的转移分布作为半监督学习中数据增强机制的实用性，显著提升少量标注样本下的分类准确率。

提出的方法

将GAN重新解释为EBM的变分训练，将判别器输出视为能量函数：$ E(\mathbf{x}) = -\log D(\mathbf{x}) $，并将生成器视为模型分布的变分近似。
提出EBM负对数似然（NLL）的变分下界，并通过两步交替优化最小化该下界：首先更新变分分布 $ q(\mathbf{x}) $，然后使用 $ q(\mathbf{x}) $ 的样本更新能量函数 $ E(\mathbf{x}) $。
提出一种有界且显式多模态的能量函数，以提升数值稳定性并防止训练过程中的梯度爆炸。
引入基于转移的生成器模型 $ p_z(\mathbf{\tilde{x}}|\mathbf{x}) $，该模型对从输入 $ \mathbf{x} $ 到生成样本 $ \mathbf{\tilde{x}} $ 的马尔可夫转移进行建模，类似于受限玻尔兹曼机（RBM）中的对比发散。
将所学习的转移分布 $ p_z(\mathbf{\tilde{x}}|\mathbf{x}) $ 用作半监督学习中的数据增强机制，生成输入数据的逼真扰动。
采用两阶段训练流程：首先通过变分下界优化训练EBM，然后在类似GAN的设置中微调生成器与判别器，结合转移模型。

实验结果

研究问题

RQ1GANs能否被解释为训练深度能量模型的一种变分推断形式？
RQ2标准GANs中训练不稳定与模式崩溃的根本原因是什么？是否可归因于生成器分布中缺失的熵项？
RQ3在高维空间中，如何在不使用MCMC采样的前提下有效处理EBM中不可计算的分区函数？
RQ4所学习的转移分布 $ p_z(\mathbf{\tilde{x}}|\mathbf{x}) $ 是否能有效建模数据流形并生成逼真且多样化的样本？
RQ5所学习的转移模型在多大程度上可作为数据增强策略，有效提升半监督分类的性能？

主要发现

VGANs在无需MCMC采样的前提下，成功实现了高维图像空间中深度EBM的稳定且有效的训练。
所提出的有界多模态能量函数显著提升了训练稳定性，并有效防止了梯度爆炸。
基于转移的生成器模型 $ p_z(\mathbf{\tilde{x}}|\mathbf{x}) $ 通过引入熵项的变分近似，有效缓解了模式崩溃问题。
在MNIST与SVHN数据集上，将所学习的转移模型用于数据增强，相比基线方法，测试误差率分别降低1.7%（MNIST-1000）与18%（SVHN-1000），且在多种设置下均保持一致的性能增益。
使用所学习的转移模型进行马尔可夫链采样，可生成平滑且逼真的图像间过渡，表明其有效学习了数据流形。
在MNIST、CIFAR10与SVHN数据集上，该方法在图像生成质量与多样性方面达到了当前最优性能，生成的样本清晰且逼真。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。