[论文解读] Iterative Amortized Inference
本文提出迭代摊销推断(iterative amortized inference),一种通过使用编码梯度迭代优化近似后验估计来改进深度潜在变量模型中变分推断的方法。通过在多个推断迭代中应用学习到的优化步骤,该方法弥合了摊销差距(amortization gap),在图像和文本基准测试中实现了最先进性能,优于标准推断模型在重建和似然目标上的表现。
Inference models are a key component in scaling variational inference to deep latent variable models, most notably as encoder networks in variational auto-encoders (VAEs). By replacing conventional optimization-based inference with a learned model, inference is amortized over data examples and therefore more computationally efficient. However, standard inference models are restricted to direct mappings from data to approximate posterior estimates. The failure of these models to reach fully optimized approximate posterior estimates results in an amortization gap. We aim toward closing this gap by proposing iterative inference models, which learn to perform inference optimization through repeatedly encoding gradients. Our approach generalizes standard inference models in VAEs and provides insight into several empirical findings, including top-down inference techniques. We demonstrate the inference optimization capabilities of iterative inference models and show that they outperform standard inference models on several benchmark data sets of images and text.
研究动机与目标
- 为解决变分推断中的摊销差距问题,即标准推断模型无法达到完全优化的后验估计。
- 通过允许通过学习到的优化方式迭代改进后验近似,推广变分自编码器(VAEs)中的标准推断模型。
- 为实践中常用但此前缺乏正式理论基础的自顶向下推断技术提供理论依据。
- 通过神经网络学习优化动态,提升后验推断的计算效率和收敛速度。
提出的方法
- 该方法采用基于神经网络的推断模型,通过后验参数对ELBO的梯度编码,迭代更新近似后验参数。
- 通过允许多个推断步骤,推广了标准VAE推断,每个步骤均使用学习到的更新规则改进后验估计。
- 推断模型被训练为基于当前数据和梯度信息预测后验参数的更新,从而有效学习一种用于后验推断的元优化器。
- 该方法的一个变体编码预测误差而非梯度,以近似高阶导数,从而在实际中实现更快收敛。
- 该方法被应用于单层和分层潜在变量模型中,架构包括全连接层和高速公路连接层。
- 训练过程对每个数据样本执行多次推断迭代,通过迭代过程反向传播梯度,联合优化推断模型和生成模型。
实验结果
研究问题
- RQ1迭代推断模型能否通过在单次前向传播之外持续改进后验估计,弥合变分自编码器中的摊销差距?
- RQ2在图像和文本数据集上,学习执行迭代优化是否能提升后验推断的似然和重建性能?
- RQ3所提出的方法能否为实践中常用的自顶向下推断技术提供理论基础?
- RQ4在迭代推断中,编码梯度与编码误差对收敛速度和最终性能有何影响?
- RQ5非循环优化模型能否在不显式建模曲率的情况下,优于传统优化器用于后验推断?
主要发现
- 在MNIST、Omniglot、SVHN、CIFAR-10和RCV1数据集上,迭代推断模型优于标准推断模型,实现了更高的ELBO和更低的困惑度。
- 在RCV1文本数据集上,迭代模型实现了108.5的测试困惑度,显著优于标准模型,并缩小了与重要性加权基线的差距。
- 在某些设置中,优化步骤中使用误差编码相比梯度编码,实现了更快收敛和更优性能。
- 该方法在单层和分层模型中均表现出一致改进,重建质量与似然性均有所提升。
- 后验估计的梯度幅值在推断迭代过程中逐渐减小,表明有效收敛至稳定后验估计。
- 该迭代方法在图像和文本基准测试中达到了最先进性能,验证了其在减小摊销差距方面的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。