Skip to main content
QUICK REVIEW

[论文解读] On the properties of variational approximations of Gibbs posteriors

Pierre Alquier, James Ridgway|arXiv (Cornell University)|Jun 12, 2015
Markov Chains and Monte Carlo Methods参考文献 44被引用 77
一句话总结

本文证明,变分贝叶斯(VB)对PAC-贝叶斯学习中使用的吉布斯后验的近似,只要满足浓度不等式且控制住真实后验与近似后验之间的KL散度,其收敛速度与原始的不可计算后验保持一致。该方法在不牺牲理论性能保证的前提下,实现了大规模数据集上的快速、可扩展推断。

ABSTRACT

The PAC-Bayesian approach is a powerful set of techniques to derive non- asymptotic risk bounds for random estimators. The corresponding optimal distribution of estimators, usually called the Gibbs posterior, is unfortunately intractable. One may sample from it using Markov chain Monte Carlo, but this is often too slow for big datasets. We consider instead variational approximations of the Gibbs posterior, which are fast to compute. We undertake a general study of the properties of such approximations. Our main finding is that such a variational approximation has often the same rate of convergence as the original PAC-Bayesian procedure it approximates. We specialise our results to several learning tasks (classification, ranking, matrix completion),discuss how to implement a variational approximation in each case, and illustrate the good properties of said approximation on real datasets.

研究动机与目标

  • 建立变分贝叶斯对PAC-贝叶斯学习中吉布斯后验近似的理论保证。
  • 证明在适当的浓度条件下,VB近似可保持与原始吉布斯后验相同的收敛速率。
  • 提供实用的算法与经验界,以在各类学习任务中实现VB近似的应用。
  • 倡导将VB作为大规模吉布斯后验推断中MCMC的默认替代方法。
  • 将理论结果扩展至分类、排序和矩阵补全等应用。

提出的方法

  • 将吉布斯后验形式化为最小化预测风险上界的PAC-贝叶斯分布。
  • 应用变分推断,利用均值场族分布近似不可计算的吉布斯后验。
  • 在霍夫丁型与伯恩斯坦型浓度不等式下,推导真实吉布斯后验与VB近似之间KL散度的理论界。
  • 提出一种变分算法,通过条件期望迭代更新潜变量与超参数的因子化后验。
  • 引入可从数据中计算的经验界,以评估VB近似估计器的性能。
  • 将通用框架特化至分类、凸分类、排序和矩阵补全,采用定制的变分族与先验。

实验结果

研究问题

  • RQ1变分贝叶斯对吉布斯后验的近似能否保持与原始PAC-贝叶斯估计器相同的收敛速率?
  • RQ2在风险函数与浓度不等式满足何种条件时,VB近似可保持最优收敛速率?
  • RQ3如何在分类与矩阵补全等实际学习任务中高效实现变分近似?
  • RQ4可从数据中计算出哪些经验界以验证VB近似吉布斯后验的性能?
  • RQ5VB方法在理论上是否可作为大规模吉布斯后验推断中MCMC的可扩展替代方案?

主要发现

  • 在霍夫丁型浓度不等式下,变分近似达到与原始吉布斯后验相同的慢速收敛速率。
  • 在伯恩斯坦型浓度不等式下,变分近似达到与原始吉布斯后验相同的快速收敛速率。
  • 对于矩阵补全,真实后验与VB近似之间的KL散度被界为 $\mathcal{C}(a,C)\left\{r(m_{1}+m_{2})\log\left[\beta b(m_{1}+m_{2})K\right]+\frac{1}{\beta}\right\}$,从而保证了速率一致性。
  • 矩阵补全的VB近似达到 $\mathcal{O}\left(\frac{r(m_{1}+m_{2})\log[nb(m_{1}+m_{2})K]}{n}\right)$ 的收敛速率,与已知的极小化下界仅相差对数因子。
  • 理论结果表明,若吉布斯后验在对数项范围内为极小化最优,则在相同条件下,VB近似亦为极小化最优。
  • 可直接从数据中计算VB近似估计器风险的经验界,从而在无需真实标签的情况下评估性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。