QUICK REVIEW

[论文解读] Tackling Over-pruning in Variational Autoencoders

Serena Yeung, Anitha Kannan|arXiv (Cornell University)|Jun 9, 2017

Generative Adversarial Networks and Image Synthesis参考文献 19被引用 43

一句话总结

本文提出了一种基于模型的变分自编码器（eVAE），通过将潜在变量分组为互斥的子空间（原型），防止变分自编码器中的过修剪问题。通过强制各组竞争以解释数据，eVAE确保了模型容量的更有效利用，从而在MNIST和TFD数据集上实现了比标准VAE更优的生成性能和泛化能力。

ABSTRACT

Variational autoencoders (VAE) are directed generative models that learn factorial latent variables. As noted by Burda et al. (2015), these models exhibit the problem of factor over-pruning where a significant number of stochastic factors fail to learn anything and become inactive. This can limit their modeling power and their ability to learn diverse and meaningful latent representations. In this paper, we evaluate several methods to address this problem and propose a more effective model-based approach called the epitomic variational autoencoder (eVAE). The so-called epitomes of this model are groups of mutually exclusive latent factors that compete to explain the data. This approach helps prevent inactive units since each group is pressured to explain the data. We compare the approaches with qualitative and quantitative results on MNIST and TFD datasets. Our results show that eVAE makes efficient use of model capacity and generalizes better than VAE.

研究动机与目标

解决变分自编码器（VAEs）中许多随机潜在单元在训练过程中变得不活跃的过修剪问题。
克服启发式训练方案（如KL退火、最小KL约束）对VAE原则性正则化的破坏。
开发一种基于模型的方法，通过将潜在空间结构化为专业化且共享的子空间，自然地促使所有潜在单元参与。
提升模型容量的利用率，以捕捉更大的数据可变性并增强生成性能。
证明eVAE在泛化能力上优于标准VAE，并在性能上与对抗性自编码器等最先进模型相当。

提出的方法

在编码器-解码器架构中引入一个分类潜在变量，用于从多个不相交的潜在空间子空间（原型）中选择一个。
每个原型激活一组连续的随机潜在变量，确保每个数据点仅有一个组被激活。
模型联合训练编码器和解码器，以最大化变分下界，其中分类变量使子空间之间产生竞争。
原型在所有数据点之间共享，使模型能够学习多种专业化表示，同时保持参数效率。
该架构实现了结构化稀疏性，确保没有单一潜在因子占主导地位，防止单元变得不活跃。
该方法通过标准VAE目标端到端反向传播训练，无需额外超参数调优，仅需标准VAE的调参。

实验结果

研究问题

RQ1基于模型的方法是否能在不依赖启发式训练方案的情况下，有效防止VAE中的过修剪问题？
RQ2将潜在空间结构化为竞争且共享的子空间（原型）是否能提升模型容量的利用率？
RQ3eVAE是否能在生成性能和泛化能力上优于标准VAE及其他最先进模型？
RQ4与KL退火或最小KL约束等现有方法相比，原型结构在表示质量方面表现如何？
RQ5原型结构在基准数据集上对数据重建和样本多样性提升的贡献程度如何？

主要发现

eVAE通过原型之间的竞争显著减少了过修剪，确保所有潜在单元均被积极使用。
在MNIST上，eVAE的Parzen对数密度达到337 ± 2 nats，优于标准VAE（325 ± 2 nats），并达到最优对抗性自编码器的水平。
在TFD上，eVAE达到2371 ± 20 nats，优于标准VAE（2180 ± 20 nats）和mVAE（2358 ± 20 nats），展现出更优的泛化能力。
eVAE生成的定性样本显示更高的多样性与更优的图像质量，表明其潜在表示更具解耦性。
eVAE在泛化能力上优于标准VAE，并在性能上与最先进模型（如对抗性自编码器）相当。
该模型有效利用了其全部容量，例如在MNIST上使用了48个潜在维度（而VAE仅用8个），且未导致训练稳定性下降。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。