[论文解读] Adversarial Symmetric Variational Autoencoder
本文提出对抗对称变分自编码器(AS-VAE),一种生成模型,通过最小化编码器与解码器推导出的数据与潜在码联合分布之间的对称Kullback-Leibler散度,同时最大化边缘对数似然,实现重建与生成的联合优化。该方法在MNIST、CIFAR-10和ImageNet数据集上均实现了最先进的重建与图像生成性能,样本质量更高,推理速度优于先前模型。
A new form of variational autoencoder (VAE) is developed, in which the joint distribution of data and codes is considered in two (symmetric) forms: ($i$) from observed data fed through the encoder to yield codes, and ($ii$) from latent codes drawn from a simple prior and propagated through the decoder to manifest data. Lower bounds are learned for marginal log-likelihood fits observed data and latent codes. When learning with the variational bound, one seeks to minimize the symmetric Kullback-Leibler divergence of joint density functions from ($i$) and ($ii$), while simultaneously seeking to maximize the two marginal log-likelihoods. To facilitate learning, a new form of adversarial training is developed. An extensive set of experiments is performed, in which we demonstrate state-of-the-art data reconstruction and generation on several image benchmark datasets.
研究动机与目标
- 开发一种深度生成模型,实现高保真度的数据重建与逼真图像生成,克服独立VAE与GAN的局限性。
- 通过将编码器与解码器结合,解决GAN中缺乏可逆推理的问题,实现后验推断与对数似然量化。
- 通过引入对称变分下界,克服传统VAE的模糊生成与较差重建问题,联合优化数据与潜在码的似然。
- 通过在对称KL散度框架内引入对抗学习,提升训练稳定性与性能,联合优化数据与潜在码的联合分布。
- 在保持高样本质量与高效推理的前提下,将模型扩展至ImageNet等大规模数据集。
提出的方法
- 该模型引入一种对称变分下界,联合优化观测数据与潜在码的期望对数似然,确保学习的平衡性。
- 最小化由编码器与解码器建模的数据与潜在码联合分布之间的对称Kullback-Leibler散度,促进双向一致性。
- 提出一种新颖的对抗训练方案,用于估计对称KL散度,并提升生成样本与重建结果的质量。
- 框架采用随机编码器 $ q_\phi(\mathbf{z}|\mathbf{x}) $ 与随机解码器 $ p_\theta(\mathbf{x}|\mathbf{z}) $,均由深度神经网络实现。
- 采用GAN风格的目标函数联合训练生成器(解码器)与判别器,但采用对称目标,将数据与潜在码视为对偶对象。
- 通过联合目标端到端训练模型,最大化边缘对数似然并最小化对称KL散度,实现忠实重建与逼真生成的统一。
实验结果
研究问题
- RQ1能否构建一种对称变分下界,联合优化数据与潜在码的似然,从而同时提升重建与生成性能?
- RQ2能否将对抗训练适配至最小化编码器与解码器推导出的数据与潜在码联合分布之间的对称KL散度?
- RQ3所提出的AS-VAE是否在MNIST、CIFAR-10与ImageNet等多样化基准上均实现图像重建与生成的最先进性能?
- RQ4在负对数似然、Inception分数与重建误差方面,AS-VAE相较于现有模型表现如何?
- RQ5该模型能否在大规模数据集(如ImageNet)上有效扩展,同时保持高样本质量与高效推理?
主要发现
- 在MNIST上,AS-VAE的负对数似然为82.51 nats,优于归一化流模型(85.1 nats),接近最先进模型。
- AS-VAE-r达到81.14 nats,与最先进水平(79.2 nats)相当,展现出强大的重建能力。
- 在CIFAR-10上,AS-VAE的重建误差(RMSE)低于ALI,且NLL具有竞争力,同时在生成质量上优于其他对抗训练模型。
- 在ImageNet上,AS-VAE生成了清晰、高质量的图像,未出现模式崩溃,样本质量优于DCGAN与PixelCNN++,单张图像推理时间仅0.01秒(单张GPU)。
- 在CIFAR-10上,AS-VAE的每轮训练时间为52.0秒(每轮4小时),显著快于PixelCNN++(每轮44小时)。
- 定性结果表明,AS-VAE生成的重建结果比ALI更忠实,后者虽经对抗训练,但重建保真度较差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。