[论文解读] Amortized Inference Regularization
本文提出了摊销推理正则化(AIR),以约束变分自编码器(VAEs)中的推理模型,证明对摊销后验进行平滑可以提高测试集对数似然并减少推理/生成差距,并将 AIR 扩展到 IWAE。
The variational autoencoder (VAE) is a popular model for density estimation and representation learning. Canonically, the variational principle suggests to prefer an expressive inference model so that the variational approximation is accurate. However, it is often overlooked that an overly-expressive inference model can be detrimental to the test set performance of both the amortized posterior approximator and, more importantly, the generative density estimator. In this paper, we leverage the fact that VAEs rely on amortized inference and propose techniques for amortized inference regularization (AIR) that control the smoothness of the inference model. We demonstrate that, by applying AIR, it is possible to improve VAE generalization on both inference and generative performance. Our paper challenges the belief that amortized inference is simply a mechanism for approximating maximum likelihood training and illustrates that regularization of the amortization family provides a new direction for understanding and improving generalization in VAEs.
研究动机与目标
- 激励对摊销推理进行正则化,以在 VAEs 中提升泛化能力,而不仅仅扩展推理家族。
- 提出两种机制(去噪与权重归一化)以在摊销推理模型中实现平滑。
- 分析 AIR 对后验和生成器的理论影响。
- 在多数据集上展示 AIR 在 VAE 和 IWAE 上的有效性。
提出的方法
- 将 ELBO 重新解释为一个数据相关的正则化极大似然目标,并将 AIR 作为一个容量受限的推理家族引入。
- 提出两种 AIR 实例: (1) 去噪变分自编码器(DVAE),在正则化期间对编码器引入高斯噪声; (2) 权重归一化推理(WNI),通过权重归一化实现平滑性。
- 证明最优 DVAE 推理模型收敛于核回归形式,且正则化强度由噪声水平 σ 控制(并通过与标准 ELBO 的凸组合来控制)。
- 通过定义一个考虑多重重要性样本的正则化项 R_k,将 AIR 扩展到 IWAE,并展示 AIR 如何与 k 互动以调节正则化。
- 提供关于平滑性和正则化强度的理论结果(引理/定理),并给出跨多数据集的经验结果。
实验结果
研究问题
- RQ1通过 AIR 限制摊销推理模型的容量是否能提升测试集对数似然并降低 VAE 的推理与生成差距?
- RQ2在测试表现与正则化强度方面,DVAE 与权重归一化编码器与标准 VAE 相比如何?
- RQ3AIR 如何与重要性加权自编码器(IWAE)及重要性样本数量 k 互动?
- RQ4哪些理论洞见描述了平滑的摊销推理如何影响生成模型?
- RQ5AIR 是否能在具有不同数据情形的数据集上提供切实可行、鲁棒的正则化?
主要发现
| -ln p_theta(x) | Delta_inf | -L(x) |
|---|---|---|
| 86.93 ± 0.04 | 8.54 ± 0.14 | 95.48 ± 0.07 |
| 86.46 ± 0.02 | 6.34 ± 0.05 | 92.80 ± 0.07 |
| 86.51 ± 0.02 | 6.83 ± 0.04 | 93.35 ± 0.06 |
| 86.42 ± 0.01 | 6.68 ± 0.01 | 93.10 ± 0.02 |
| 110.32 ± 0.16 | 12.03 ± 0.25 | 122.35 ± 0.33 |
| 109.31 ± 0.19 | 12.56 ± 0.18 | 132.04 ± 0.37 |
| 110.12 ± 0.18 | 12.44 ± 0.16 | 122.56 ± 0.34 |
| 109.16 ± 0.31 | 11.39 ± 0.10 | 120.55 ± 0.20 |
| 138.05 ± 0.15 | 28.90 ± 0.42 | 109.14 ± 0.28 |
| ? | ? | ? |
- 与标准 VAE 相比,AIR 提高了在 MNIST、OMNIGLOT 和 Caltech Silhouettes 上的测试集对数似然并减少了推理差距。
- DVAE 与 WNI-VAE 在所有三个数据集的多项指标(负对数似然、摊销 ELBO、推理差距)上通常优于 VAE。
- 通过 σ(DVAE)或 H(WNI)增加正则化强度将模型从过拟合推向欠拟合,选取合适的值在某些数据集上使测试对数似然提升约 0.5–1.0 nat。
- 在 IWAE 设置中,DIWAE 和 WNI-IWAE 一直优于不含 AIR 的 IWAE,在测试对数似然方面,且通常显示出较小的推理差距。
- 当 IWAE 的 k 增加时,AIR 的正则化效果衰减,但对于实用的 k(如 k=8、k=64)仍然有益,较高的 k 能缓解由强 AIR 引起的欠拟合。
- 理论命题表明更平滑的摊销推理会导致生成器中对训练样本的凸组合加权,指出生成器的自然正则化机制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。