Skip to main content
QUICK REVIEW

[论文解读] Unbiased Implicit Variational Inference

Michalis K. Titsias, Francisco J. R. Ruiz|arXiv (Cornell University)|Aug 6, 2018
Domain Adaptation and Few-Shot Learning被引用 25
一句话总结

该论文提出无偏隐式变分推断(uivi),一种通过深度神经网络构建的隐式变分分布,实现对证据下界(ELBO)的直接、无偏优化的方法。与依赖密度比估计或代理边界先前置方法不同,uivi使用可重参数化的潜在变量条件分布,通过蒙特卡洛采样实现高效、无偏的梯度估计,且在计算成本相近的情况下,相比sivi和标准VAE,实现了更紧的ELBO和更优的预测性能。

ABSTRACT

We develop unbiased implicit variational inference (UIVI), a method that expands the applicability of variational inference by defining an expressive variational family. UIVI considers an implicit variational distribution obtained in a hierarchical manner using a simple reparameterizable distribution whose variational parameters are defined by arbitrarily flexible deep neural networks. Unlike previous works, UIVI directly optimizes the evidence lower bound (ELBO) rather than an approximation to the ELBO. We demonstrate UIVI on several models, including Bayesian multinomial logistic regression and variational autoencoders, and show that UIVI achieves both tighter ELBO and better predictive performance than existing approaches at a similar computational cost.

研究动机与目标

  • 解决现有隐式变分推断方法依赖近似或密度比估计所带来的局限性。
  • 在具有复杂隐式变分族的模型中,实现证据下界(ELBO)的直接优化。
  • 通过分层重参数化与高效的MCMC采样,开发一种可扩展且无偏的ELBO梯度估计器。
  • 在贝叶斯模型(如贝叶斯多项式逻辑回归和变分自编码器)中,同时提升ELBO紧致性和预测性能。

提出的方法

  • uivi通过将可重参数化的条件分布 $ q_{\theta}(z|\varepsilon) $ 与灵活的噪声分布 $ q(\varepsilon) $ 混合,定义了一个半隐式变分分布,其中 $ \theta $ 是将 $ \varepsilon $ 映射到 $ q_{\theta}(z|\varepsilon) $ 参数的深度神经网络。
  • 该方法将ELBO梯度表示为对 $ q_{\theta}(\varepsilon|z) $ 的期望,从而在无需密度比估计的情况下,通过蒙特卡洛采样实现无偏梯度估计。
  • 采用快速马尔可夫链蒙特卡洛(MCMC)过程从条件分布 $ q_{\theta}(\varepsilon|z) $ 中采样,从平稳分布开始以避免预 burn-in 阶段。
  • 梯度估计器基于 $ q_{\theta}(z|\varepsilon) $ 和 $ q_{\theta}(\varepsilon|z) $ 的样本构建,从而可通过随机梯度上升实现ELBO的无偏优化。
  • 通过利用重参数化并避免迭代密度比估计,该方法保持了计算效率。
  • 该方法应用于贝叶斯多项式逻辑回归和变分自编码器(VAEs),采用共享架构与训练设置以确保公平比较。

实验结果

研究问题

  • RQ1我们能否在不依赖密度比估计的情况下,实现隐式变分推断中ELBO的无偏优化?
  • RQ2结合深度神经网络的分层重参数化方案,是否能生成更具表达力和灵活性的变分族,同时实现无偏梯度估计?
  • RQ3与sivi中使用的代理边界相比,通过无偏梯度实现的ELBO直接优化,是否能带来更紧的边界和更优的预测性能?
  • RQ4所提出的方法是否能在保持计算效率的同时,优于标准VAE和sivi在ELBO和测试对数似然方面的表现?

主要发现

  • uivi在MNIST上的测试对数似然为-94.09,在Fashion-MNIST上为-110.72,显著优于sivi(-97.77和-121.53)以及标准VAE。
  • uivi下的ELBO值比sivi和标准VAE更紧,表明对真实后验分布的近似更优。
  • uivi的计算成本与sivi相当,MNIST平均迭代时间为0.14秒,Fashion-MNIST为0.13秒,而sivi分别为0.16秒和0.17秒。
  • uivi生成的重构图像在MNIST和Fashion-MNIST上的定性结果中显示出比sivi和标准VAE更高的保真度。
  • 该方法通过将ELBO梯度表示为期望形式,成功避免了密度比估计,从而可通过从 $ q_{\theta}(\varepsilon|z) $ 中进行MCMC采样实现无偏估计。
  • uivi在多个模型中均一致提升了ELBO和预测性能,验证了其在复杂贝叶斯推断场景下的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。