[论文解读] Auxiliary Deep Generative Models
本文提出 Auxiliary Deep Generative Models (ADGM) 与 Skip Deep Generative Models (SDGM),它们使用辅助潜变量使变分后验更具表达性,从而实现端到端训练,并在 MNIST、SVHN 和 NORB 上获得最先进的半监督结果。
Deep generative models parameterized by neural networks have recently achieved state-of-the-art performance in unsupervised and semi-supervised learning. We extend deep generative models with auxiliary variables which improves the variational approximation. The auxiliary variables leave the generative model unchanged but make the variational distribution more expressive. Inspired by the structure of the auxiliary variable we also propose a model with two stochastic layers and skip connections. Our findings suggest that more expressive and properly specified deep generative models converge faster with better results. We show state-of-the-art performance within semi-supervised learning on MNIST, SVHN and NORB datasets.
研究动机与目标
- 将深度生成模型扩展为具备辅助变量,以改进变分近似。
- 证明辅助变量在半监督学习中可实现更快的收敛和更好的性能。
- 引入具有跳跃连接的两层随机模型(SDGM),并在标准基准上进行评估。
提出的方法
- 引入辅助潜在变量 a 进入 p(x,z,a),使 p(x,z,a)=p(a|x,z)p(x,z),以使模型在对 a 的边际化不变。
- 推导包含 a 的变分下界,使 q(a|x) 和 q(z|a,x) 能形成更丰富的后验(AVAE/ADGM 框架)。
- 通过添加类别潜变量 y 及 q(y|a,x) 和 pθ(a|z,y,x)、pθ(x|z,y) 将其扩展到半监督学习。
- 定义推断模型 qφ(a|x) qφ(y|a,x) qφ(z|a,y,x) 并使用重新参数化实现反向传播。
- 通过反转箭头来创建具有跳跃连接的两层生成模型,提出 Skip Deep Generative Model (SDGM)。
- 使用 Adam 端到端训练,采用综合目标函数在生成和判别项之间进行权衡(α 权重)。
- 在玩具分布、MNIST、SVHN 和 NORB 上进行评估,将 AVAE/ADGM/SDGM 与基线 VAE 和半监督方法进行比较。
实验结果
研究问题
- RQ1变分分布中的辅助变量是否能更好地逼近深度生成模型中的复杂后验?
- RQ2ADGM 与 SDGM 是否在标准基准上提升收敛速度和半监督分类准确率?
- RQ3与其他半监督方法(VAT、Ladder、M2)相比,辅助变量方法在 MNIST、SVHN、NORB 上的表现如何?
主要发现
| 方法 | MNIST (100 标记样本) | MNIST (1000 标记样本) | SVHN (1000 标记样本) | NORB (1000 标记样本) |
|---|---|---|---|---|
| M1+TSVM | 11.82% (±0.25) | - | - | - |
| M1+M2 | 3.33% (±0.14) | - | - | - |
| VAT | 2.12% | - | 24.63% | - |
| Ladder Network | 1.06% (±0.37) | - | - | - |
| Auxiliary Deep Generative Model (ADGM) | 0.96% (±0.02) | - | 22.86% | 10.06% (±0.05) |
| Skip Deep Generative Model (SDGM) | 1.32% (±0.07) | - | 16.61% (±0.24) | 9.40% (±0.04) |
- 在所报道方法中,ADGM 与 SDGM 在 MNIST、SVHN 和 NORB 上实现了最先进的半监督性能。
- 在 MNIST 的 100 个带标签样本条件下,ADGM 达到 0.96% error (±0.02),SDGM 为 1.32% (±0.07),且结果与若干基线竞争或更好。
- 在 SVHN 上,ADGM 为 22.86% error,SDGM 为 16.61% error,优于 VAT,在某些设置下与 Ladder 相当。
- 在 NORB 上,ADGM 达到 10.06% (±0.05),SDGM 为 9.40% (±0.04),对于高斯输入,SDGM 常比 ADGM 更稳定。
- toy 实验表明,辅助变量能够建模超越高斯的多模态/后验分布,提升变分下界。
- 在合成半监督任务中,SDGM 的收敛速度比 ADGM 更快,并且展现出数据流形的更清晰分离。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。