Skip to main content
QUICK REVIEW

[论文解读] From Variational to Deterministic Autoencoders

Partha Ghosh, Mehdi S. M. Sajjadi|arXiv (Cornell University)|Mar 29, 2019
Generative Adversarial Networks and Image Synthesis参考文献 54被引用 106
一句话总结

RAEs 提供一种确定性替代方案给 VAE,通过用显式解码器正则化替代随机编码,以及一个事后密度估计步骤,以提高在图像和像分子这类结构化数据上的采样质量。

ABSTRACT

Variational Autoencoders (VAEs) provide a theoretically-backed and popular framework for deep generative models. However, learning a VAE from data poses still unanswered theoretical questions and considerable practical challenges. In this work, we propose an alternative framework for generative modeling that is simpler, easier to train, and deterministic, yet has many of the advantages of VAEs. We observe that sampling a stochastic encoder in a Gaussian VAE can be interpreted as simply injecting noise into the input of a deterministic decoder. We investigate how substituting this kind of stochasticity, with other explicit and implicit regularization schemes, can lead to an equally smooth and meaningful latent space without forcing it to conform to an arbitrarily chosen prior. To retrieve a generative mechanism to sample new data, we introduce an ex-post density estimation step that can be readily applied also to existing VAEs, improving their sample quality. We show, in a rigorous empirical study, that the proposed regularized deterministic autoencoders are able to generate samples that are comparable to, or better than, those of VAEs and more powerful alternatives when applied to images as well as to structured data such as molecules. \footnote{An implementation is available at: \url{https://github.com/ParthaEth/Regularized_autoencoders-RAE-}}

研究动机与目标

  • 质疑生成建模和潜在空间正则化对变分框架的必要性。
  • 提出一个具有显式正则化项的确定性自编码器(RAE),以取代基于 KL 的 VAE 目标。
  • 研究不同正则化项如何影响潜在空间结构和采样质量。
  • 引入一个事后密度估计步骤,以在不强制固定潜在先验的情况下实现采样。
  • 在图像数据集以及像分子这样的结构化领域展示 RAEs,以与 VAE 和 WAE 进行比较。

提出的方法

  • 通过重参数化技巧将高斯输入噪声添加到解码器输入,将 VAEs 重新解释为确定性自编码器。
  • 定义正则化自编码器损失 LRAE = LREC + (1/2)||z||^2 + βLREG,其中 LREG 作为显式解码器正则化项(例如对 θ 的 L2、梯度惩罚、谱归一化)。
  • 探索多种正则化项:对解码器参数的 L2(RAE-L2)、GP(梯度惩罚)和 SN(谱归一化)。
  • 可选择省略 LRAE_Z,仅依赖 LREG 来对解码器进行正则化,从而实现完全的确定性训练信号。
  • 对学习得到的潜在代码应用事后密度估计 qδ(z),以在不强制固定先验的情况下恢复生成机制。
  • 通过在 MNIST、CIFAR 和 CelebA 上的 Fréchet Inception Distance(FID)、重建和插值进行评估,并扩展到 GrammarRAE 以处理结构化数据(分子、表达式)。

实验结果

研究问题

  • RQ1一个具有显式解码器正则化的确定性自编码器能否达到或超越 VAE/WAE 的采样质量?
  • RQ2移除 KL 项和潜在先验是否会阻碍采样,事后密度估计能否恢复可用的生成机制?
  • RQ3哪些正则化方案(L2、梯度惩罚、谱归一化)最有效地塑造潜在空间?
  • RQ4对 VAE、WAE 和 RAE 来说,事后密度估计是否有益于提升样本质量?
  • RQ5RAEs 是否能很好扩展到如分子和语法受限表达式等结构化数据领域?

主要发现

  • RAEs 在 MNIST、CIFAR 和 CelebA 上,与使用 10 组成的 GMM 事后密度估计器时,对比 VAE、WAE 和 2sVAE 的 Fréchet Inception Distance (FID) 得分具竞争力或更好。
  • 不同的 RAEs(GP、L2、SN)在各数据集上的表现相似,未有单一获胜者;更简单的 L2 变体在实现上更易于采用。
  • 事后密度估计在 VAE、WAE 和 RAE 上普遍提升样本质量,显著降低 FID(例如在 MNIST 和 CelebA 使用 10 组 GMM 时从约 58.73/高到约 10.66 等量级)。
  • 隐式正则化的 RAEs 甚至简单的 AE,若用 GMM 拟合 qδ(z),也能实现显著的 FID 降低(例如 MNIST 从 58.73 降至 10.66)。
  • RAEs 展示出强大的潜在空间插值和清晰样本,并且有效扩展到如分子这样的结构化数据, GrammarRAE 实验中实现比 CVAEs 和 GVAE 更高的有效性与评分。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。