[论文解读] f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization
这篇论文表明 GAN 训练是更广泛的变分散度最小化框架(f-GAN)的一种特例,该框架允许使用任意 f-散度来训练生成神经采样器,并提供理论、算法以及 MNIST/LSUN 实验。
Generative neural samplers are probabilistic models that implement sampling using feedforward neural networks: they take a random input vector and produce a sample from a probability distribution defined by the network weights. These models are expressive and allow efficient computation of samples and derivatives, but cannot be used for computing likelihoods or for marginalization. The generative-adversarial training method allows to train such models through the use of an auxiliary discriminative neural network. We show that the generative-adversarial approach is a special case of an existing more general variational divergence estimation approach. We show that any f-divergence can be used for training generative neural samplers. We discuss the benefits of various choices of divergence functions on training complexity and the quality of the obtained generative models.
研究动机与目标
- 激励能够通过神经网络实现高效采样的概率生成模型。
- 证明 GAN 训练是更广泛的变分散度框架(f-GAN)的一种特例。
- 拓展到任意 f-散度并分析它们对训练和模型质量的影响。
- 提供针对不同散度的实用优化算法与激活函数设计。
- 在基准数据集(MNIST 和 LSUN)上演示该方法以比较不同散度。
提出的方法
- 定义 f-散度 D_f(P||Q) 及其凸生成元 f(u)。
- 使用带 Fenchel 共轭 f* 的变分下界来获得鞍点目标函数。
- 用神经网络参数化变分函数 T,并使用适当的输出激活 g_f 以满足 dom_f*。
- 表明标准 GAN 目标可以作为 f-GAN 公式的一种特殊情况得到(通过特定的 g_f 和 V)(Eq. 8)。
- 提出两种实用的优化方案:经典的交替梯度法和在温和条件下具有收敛保证的单步梯度法(定理 1)。
- 讨论实际考虑因素(例如训练技巧、用于真实/伪分类阈值的统计数据,以及优化器选择)。
实验结果
研究问题
- RQ1是否可以在统一的变分框架内使用任意 f-散度来训练生成神经采样器?
- RQ2f-散度的选择如何影响训练动态、模型错误指定的后果以及学习到的分布质量?
- RQ3GAN 训练是否可以在变分散度最小化框架内进行解释和泛化?
- RQ4针对不同散度,哪些有效的优化策略(单步与交替)和架构选择?
- RQ5散度在像 MNIST 和 LSUN 这类图像数据集上的经验比较如何?
主要发现
- GAN 训练是更广泛的 f-GAN/VDM 框架的一个特殊实例。
- 通过适当的变分函数设计,可以使用任意 f-散度来训练生成神经采样器。
- 当模型被错误指定时,f-散度的选择会影响学习到的参数并影响训练结果。
- 在温和的光滑性/凸性类型条件下,单步梯度法对鞍点以几何速率收敛(定理 1)。
- 基于 KL 的散度在 MNIST 上相对于 GAN 目标可获得更高的 holdout log-likelihood,而其他散度表现各异;在 GAN、KL 和平方 Hellinger 散度下 LSUN 样本看起来都很逼真。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。