Skip to main content
QUICK REVIEW

[论文解读] Nonparametric variational inference

Samuel J. Gershman, Matt Hoffman|arXiv (Cornell University)|Jun 18, 2012
Gaussian Processes and Bayesian Inference参考文献 20被引用 45
一句话总结

本文提出了一种非参数变分推断方法,利用核密度估计来建模复杂且多模态的后验分布,而无需依赖共轭指数族先验。通过将核的位置和带宽视为变分参数,该方法优化证据下界,其在层次化逻辑斯蒂回归和非线性矩阵分解模型上的性能与或优于专门设计的变分方法和采样方法。

ABSTRACT

Variational methods are widely used for approximate posterior inference. However, their use is typically limited to families of distributions that enjoy particular conjugacy properties. To circumvent this limitation, we propose a family of variational approximations inspired by nonparametric kernel density estimation. The locations of these kernels and their bandwidth are treated as variational parameters and optimized to improve an approximate lower bound on the marginal likelihood of the data. Using multiple kernels allows the approximation to capture multiple modes of the posterior, unlike most other variational approximations. We demonstrate the efficacy of the nonparametric approximation with a hierarchical logistic regression model and a nonlinear matrix factorization model. We obtain predictive performance as good as or better than more specialized variational methods and sample-based approximations. The method is easy to apply to more general graphical models for which standard variational methods are difficult to derive.

研究动机与目标

  • 为解决标准变分推断在处理具有复杂后验结构的非共轭模型时的局限性。
  • 在不依赖共轭指数族分布的前提下,实现灵活的非参数后验近似。
  • 开发一种可扩展且通用的推断框架,适用于广泛范围的图模型。
  • 通过使用多个核来捕捉多个模式,从而提升后验近似的质量。
  • 实现与专门设计的变分方法和基于MCMC的方法相当或更优的预测性能。

提出的方法

  • 该方法通过在可学习位置处构建以核混合形式的变分近似。
  • 核带宽被视为变分参数,并与核位置一并进行优化。
  • 使用基于梯度的优化方法最大化证据下界的变分下界。
  • 核密度近似允许对复杂后验形状进行灵活的非参数建模。
  • 该方法适用于标准变分方法难以推导的通用图模型。
  • 通过依赖核平滑而非指数族分布,避免了强参数化假设。

实验结果

研究问题

  • RQ1非参数变分近似是否能有效建模复杂模型中的多模态后验分布?
  • RQ2这种基于核的变分方法性能与专门设计的变分方法和MCMC方法相比如何?
  • RQ3该方法是否可应用于因缺乏共轭性而使标准变分推断不可行的模型?
  • RQ4核带宽与位置优化对变分近似质量有何影响?
  • RQ5该方法是否能推广至指数族以外的各类图模型?

主要发现

  • 该非参数变分推断方法在层次化逻辑斯蒂回归模型上实现了与专门设计的变分方法相当或更优的预测性能。
  • 在非线性矩阵分解任务中,该方法优于标准变分推断,并在预测精度上匹配或超过基于MCMC的近似方法。
  • 该方法成功捕捉了后验中的多个模式,这是标准均值场变分推断通常缺乏的能力。
  • 核位置与带宽的优化相比固定核配置,能获得更紧的证据下界。
  • 该方法具有鲁棒性和可泛化性,可在标准变分方法难以推导的模型中实现有效推断。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。