[论文解读] VEEGAN: Reducing Mode Collapse in GANs using Implicit Variational Learning
VEEGAN 引入一个重构器网络,将数据映射回高斯噪声,并与生成器共同使用隐式变分目标进行训练,从而缓解模式崩溃并产生更高质量的样本。
Deep generative models provide powerful tools for distributions over complicated manifolds, such as those of natural images. But many of these methods, including generative adversarial networks (GANs), can be difficult to train, in part because they are prone to mode collapse, which means that they characterize only a few modes of the true distribution. To address this, we introduce VEEGAN, which features a reconstructor network, reversing the action of the generator by mapping from data to noise. Our training objective retains the original asymptotic consistency guarantee of GANs, and can be interpreted as a novel autoencoder loss over the noise. In sharp contrast to a traditional autoencoder over data points, VEEGAN does not require specifying a loss function over the data, but rather only over the representations, which are standard normal by assumption. On an extensive set of synthetic and real world image datasets, VEEGAN indeed resists mode collapsing to a far greater extent than other recent GAN variants, and produces more realistic samples.
研究动机与目标
- 激发并解决 GAN 中的模式崩溃问题,即生成器错过数据分布中的模态。
- 提出一个将真实数据映射到高斯噪声并对生成器进行近似反转的重构器网络。
- 开发一个隐式变分目标,将潜在表示的重构损失与类 KL 项结合。
- 证明优化该目标会促使生成器覆盖整个数据分布,而不需要显式的数据空间重构损失。
提出的方法
- 引入一个重构器网络 F_theta,将数据 X 映射到潜在噪声 Z,并对生成器 G_gamma 进行近似反转。
- 提出一个隐式变分目标,将潜在表示上的自编码器式损失与确保 F_theta(X) 与先验 Z~p0(z) 相匹配的交叉熵项结合。
- 使用变分分布 q_gamma(x|z) 推导一个可计算界限,以处理隐式分布。
- 使用学习得到的判别器 D_omega 来估计在存在隐式模型时所需的 KL 类目标的密度比项。
- 使用随机梯度下降对 gamma(生成器)和 theta(重构器)进行联合优化,并进行判别器更新(如同 GAN 中)。
- 解释与 BiGAN/ALI、InfoGAN 以及对抗自编码器的区别,强调噪声空间自编码和数据到噪声映射的区别。
实验结果
研究问题
- RQ1添加一个将数据映射到高斯噪声的重构器是否有助于检测和缓解 GAN 的模式崩溃?
- RQ2结合噪声空间自编码器的隐式变分目标是否在判别器信息不足时仍能提供强有力的学习信号?
- RQ3就模式覆盖和样本质量而言,VEEGAN 相较于现有的 GAN 变体(如 ALI、Unrolled GAN、InfoGAN)在合成和真实图像数据集上表现如何?
- RQ4在 GAN 训练中使用基于噪声的自编码器相比数据空间自编码器,有哪些实际的训练注意事项和好处?
主要发现
- VEEGAN 在合成和真实图像数据集上比若干前沿 GAN 变体更有效地减少模式崩溃。
- 该方法产生更具多样性和真实感的样本,且对数据模态覆盖更好。
- 使用噪声空间自编码器(对潜在 z 进行自编码)提供稳定的训练信号,而不需要数据空间的重构损失。
- 在默认超参数下方法仍然有效,并且不依赖对正则化权重进行广泛微调。
- 与基线如 GAN、ALI、Unrolled GAN 相比,VEEGAN 在堆叠的 MNIST 和 CIFAR-10 数据集上显示出改进的模态捕获和样本保真度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。