QUICK REVIEW

[论文解读] Denoising Criterion for Variational Auto-Encoding Framework

Daniel Im Jiwoong Im, Sungjin Ahn|arXiv (Cornell University)|Nov 19, 2015

Generative Adversarial Networks and Image Synthesis被引用 71

一句话总结

本文提出了去噪变分自编码器（DVAE），通过在输入层和潜在层同时注入噪声，改进了变分自编码器，并采用一种新颖的去噪变分下界，实现了可 tractable 的训练。该方法通过学习更鲁棒和灵活的后验近似，在 MNIST 和 Frey Face 数据集上显著提升了对数似然性能，优于标准 VAE 和 IWAE。

ABSTRACT

Denoising autoencoders (DAE) are trained to reconstruct their clean inputs with noise injected at the input level, while variational autoencoders (VAE) are trained with noise injected in their stochastic hidden layer, with a regularizer that encourages this noise injection. In this paper, we show that injecting noise both in input and in the stochastic hidden layer can be advantageous and we propose a modified variational lower bound as an improved objective function in this setup. When input is corrupted, then the standard VAE lower bound involves marginalizing the encoder conditional distribution over the input noise, which makes the training criterion intractable. Instead, we propose a modified training criterion which corresponds to a tractable bound when input is corrupted. Experimentally, we find that the proposed denoising variational autoencoder (DVAE) yields better average log-likelihood than the VAE and the importance weighted autoencoder on the MNIST and Frey Face datasets.

研究动机与目标

通过将去噪准则融入变分推断框架，提升变分自编码器的表征能力与鲁棒性。
通过推导一种新的可 tractable 目标函数，解决引入输入噪声后标准 VAE 训练不可行的问题。
通过在识别网络中对输入噪声进行边缘化，实现更灵活的后验近似（如高斯混合模型）。
通过实证验证，去噪可提升多种模型（包括 VAE 和重要性加权自编码器（IWAE））的性能。
探索不同噪声退化分布（如全局与像素级噪声率）对模型性能的影响。

提出的方法

提出一种名为去噪变分下界（DVVB）的新目标函数，即使在输入被噪声污染时也保持可 tractable。
引入一种对输入噪声进行边缘化的识别网络，使模型能够学习更灵活的后验分布。
使用退化分布（如伯努利或高斯噪声）建模输入级噪声，噪声率可为全局或像素级。
将 DVVB 应用于标准模型（如 VAE 和 IWAE），实现输入和潜在层均含噪声的端到端训练。
采用重参数化技巧和随机反向传播，高效优化新目标函数。
考虑固定与可学习的退化分布，后者留待未来工作。

实验结果

研究问题

RQ1在输入和潜在层同时注入噪声，是否能提升变分自编码器的性能？
RQ2当输入被污染时，是否可能推导出一种可 tractable 的变分下界，从而克服对输入噪声进行边缘化的不可行性？
RQ3所提出的去噪准则是否能带来更紧的下界，并在泛化性能上优于标准 VAE 和 IWAE？
RQ4退化分布的选择（全局 vs. 像素级）如何影响模型性能？
RQ5该去噪框架能否有效扩展至 IWAE 和递归推理网络等模型？

主要发现

使用标准前馈推理网络的去噪变分自编码器（DVAE）在 MNIST 上达到负对数似然 94.32 ± 0.12，优于标准 VAE 和无循环结构的 DVAE。
当使用门控循环单元（GRUs）作为推理网络时，DIWAE（去噪 IWAE）在 10% 噪声水平下达到最佳性能，负对数似然为 92.84 ± 0.07，显著优于其他模型。
使用 GRU 的 DVAE 在 5% 噪声水平下达到 94.30 ± 0.09，表明去噪可缓解循环架构中的过拟合问题，而标准 VAE 在此类结构中会失效。
通过从概率输入（p(x') = x）采样实现的数据增强，使 VAE 达到 93.88 ± 0.08，IWAE 达到 92.51 ± 0.07，优于 DVAE 但劣于 DIWAE，表明去噪比简单增强更有效。
基于图像均值的像素级退化率未带来明显性能提升，相较于全局退化率，表明可能需要更复杂的退化学习机制。
所提出的去噪变分下界在噪声输入上比标准 VAE 下界更紧，从而实现更优的后验近似与更好的泛化性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。