Skip to main content
QUICK REVIEW

[论文解读] Scalable Variational Gaussian Process Classification

James Hensman, Alexander Matthews|arXiv (Cornell University)|Nov 7, 2014
Gaussian Processes and Bayesian Inference参考文献 26被引用 346
一句话总结

本文提出了一种用于高斯过程分类的可扩展变分推断方法,采用一种新颖的变分界,直接近似边缘似然,而无需预先近似协方差矩阵。通过结合稀疏诱导点与随机优化,该方法在基准数据集上实现了最先进性能,并可扩展至数百万数据点,从而在飞行延误预测等大规模问题上实现精确分类。

ABSTRACT

Gaussian process classification is a popular method with a number of appealing properties. We show how to scale the model within a variational inducing point framework, outperforming the state of the art on benchmark datasets. Importantly, the variational formulation can be exploited to allow classification in problems with millions of data points, as we demonstrate in experiments.

研究动机与目标

  • 解决现有非共轭GP分类中缺乏可扩展的变分推断方法,以处理大规模数据集的问题。
  • 开发一种变分界,避免预先近似协方差矩阵,从而提升近似质量与优化稳定性。
  • 实现变分目标的随机优化,使模型可在包含数百万数据点的数据集上进行训练。
  • 提供一个与复杂GP模型(如深度GP和GP回归网络)兼容的统一框架。
  • 在基准数据集和真实世界数据集上,性能优于现有方法(如GFITC和IVM),在准确率与可扩展性方面均表现更优。

提出的方法

  • 提出一种新的变分界KLSP,直接近似边缘似然,而无需首先近似完整协方差矩阵。
  • 采用稀疏近似方法,使用诱导输入Z和诱导变量u,其中q(f|u)为以u为条件的高斯过程。
  • 采用变分分布q(u) = N(u|m, S)来近似诱导变量的后验联合分布。
  • 利用Jensen不等式推导边缘对数似然的下界,从而得到一个可处理的目标函数。
  • 通过使用ADADELTA算法的随机优化方法,采用小批量更新,实现对大规模数据集(如MNIST和飞行数据)的训练。
  • 对非高斯似然项中的对数似然项,采用高斯-埃尔米特积分进行近似。

实验结果

研究问题

  • RQ1能否设计一种GP分类的变分推断框架,避免预先近似完整协方差矩阵?
  • RQ2该框架能否通过随机优化实现扩展,以处理包含数百万数据点的数据集?
  • RQ3所提出的方法在预测准确率与校准性方面是否优于现有稀疏GP分类方法?
  • RQ4该方法能否集成到分层GP模型(如深度GP或GP回归网络)中?
  • RQ5该方法在真实世界、高维、大规模数据集(如飞行延误预测)上的泛化能力如何?

主要发现

  • 所提出的KLSP方法在基准数据集上优于最先进方法GFITC,实现了更低的负对数概率与更优的校准性。
  • 在包含60,000个训练样本的MNIST数据集上,通过随机优化,该方法实现了97.8%的测试准确率与0.069的负对数概率。
  • 在包含590万架次航班的真实飞行延误数据集上,该方法显著优于线性分类器(37%错误率),负对数概率为0.58,表明其预测性能更优。
  • 优化后的核超参数显示,Matern-3/2核占主导地位,且一天中的时间与一年中的时间是最具相关性的特征,表明数据具有高度非线性。
  • 该方法表现出稳定的优化行为,而与之对比的均场稀疏方法则因校准性差而出现不稳定性能。
  • KLSP界支持随机优化,使GP分类在以往标准GP方法难以处理的大数据应用中成为可能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。