QUICK REVIEW

[论文解读] f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization

Sebastian Nowozin, Botond Cseke|arXiv (Cornell University)|Jun 2, 2016

Adversarial Robustness in Machine Learning参考文献 29被引用 636

一句话总结

该论文表明 GAN 训练是对 f-散度的变分散离最小化的一个特殊情况，并将生成性神经采样器推广到可以使用任意 f-散度通过变分判别器进行训练。

ABSTRACT

Generative neural samplers are probabilistic models that implement sampling using feedforward neural networks: they take a random input vector and produce a sample from a probability distribution defined by the network weights. These models are expressive and allow efficient computation of samples and derivatives, but cannot be used for computing likelihoods or for marginalization. The generative-adversarial training method allows to train such models through the use of an auxiliary discriminative neural network. We show that the generative-adversarial approach is a special case of an existing more general variational divergence estimation approach. We show that any f-divergence can be used for training generative neural samplers. We discuss the benefits of various choices of divergence functions on training complexity and the quality of the obtained generative models.

研究动机与目标

动机并形式化通过超越 Jensen-Shannon/GAN 的散度来训练生成性神经采样器。
引入变分散离最小化（VDM）作为学习 Q_theta 以逼近 P 的通用框架。
推导适用于广泛的 f-散度族的 f-GAN 目标，并展示如何用神经网络实现它们。
阐明处理不同 f-散度时的实际优化方法与激活设计。
展示散度选择对图像数据和模型性能的经验影响。

提出的方法

回顾 f-散度及其通过凸共轭 f* 的变分表示。
将 f-GAN 的对偶点目标 F(theta, omega) 公式化为 F(theta, omega) = E_{x~P}[T_omega(x)] - E_{x~Q_theta}[f*(T_omega(x))]。
将变分函数表示为 T_omega(x) = g_f(V_omega(x))，并选择合适的输出激活以匹配 dom(f*)。
证明 GAN/JS 是一般 F(θ, ω) 目标在特定激活和 T* 下的特殊情况。
提出一种实用的单步梯度方法以优化该鞍点，在一次前向传播中同时更新生成器和变分函数。
讨论训练技巧，如交替更新生成器、真实/伪样本统计，以及优化辅助方法（Adam、梯度裁剪）。

实验结果

研究问题

RQ1是否可以使用任意 f-散度通过变分目标来训练生成性神经采样器？
RQ2f-散度的选择如何影响训练动态和学习到的分布质量？
RQ3在实现跨散度的变分函数时有哪些实际考虑？
RQ4在合理条件下，单步优化方法是否收敛到鞍点？
RQ5散度如何影响在真实图像数据集（如 MNIST 和 LSUN）上的结果？

主要发现

任何 f-散度在与变分判别器结合时都能为生成采样器提供有效的训练目标。
GAN 训练可以看作更广泛的 f-GAN/VDM 框架中的一个特殊情况。
在温和的光滑性和凸性假设下，实用的单步梯度方法可以收敛到鞍点。
当模型被错设时，不同的散度会导致不同的学习分布，凸显散度对模型拟合的影响。
在 MNIST 和 LSUN 的实证研究显示，不同散度产生不同的样本质量和似然行为，其中与 KL 相关的散度在 MNIST 实验中有时表现出更高的保留似然。
该框架为每个 f-散度对应的输出激活和 T* 提供了指引。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。