QUICK REVIEW

[论文解读] Nested Expectation Propagation for Gaussian Process Classification with a Multinomial Probit Likelihood

Jaakko Riihimäki, Pasi Jylänki|arXiv (Cornell University)|Jul 16, 2012

Gaussian Processes and Bayesian Inference参考文献 30被引用 32

一句话总结

本文提出了一种新颖的嵌套期望传播（EP）方法，用于高斯过程多项式 probit 分类，该方法在无需数值积分的情况下准确建模潜在变量之间的类别间依赖关系，实现类别数量的线性缩放。其在预测一致性方面优于拉普拉斯近似、变分贝叶斯和马尔可夫链蒙特卡洛（MCMC）方法，尽管各类方法在分类准确率上的差异较小。

ABSTRACT

We consider probabilistic multinomial probit classification using Gaussian process (GP) priors. The challenges with the multiclass GP classification are the integration over the non-Gaussian posterior distribution, and the increase of the number of unknown latent variables as the number of target classes grows. Expectation propagation (EP) has proven to be a very accurate method for approximate inference but the existing EP approaches for the multinomial probit GP classification rely on numerical quadratures or independence assumptions between the latent values from different classes to facilitate the computations. In this paper, we propose a novel nested EP approach which does not require numerical quadratures, and approximates accurately all between-class posterior dependencies of the latent values, but still scales linearly in the number of classes. The predictive accuracy of the nested EP approach is compared to Laplace, variational Bayes, and Markov chain Monte Carlo (MCMC) approximations with various benchmark data sets. In the experiments nested EP was the most consistent method with respect to MCMC sampling, but the differences between the compared methods were small if only the classification accuracy is concerned.

研究动机与目标

解决由于非高斯似然函数以及类别数量增加导致潜在变量维度增长所引发的多类别高斯过程分类中后验推断不可计算的问题。
克服现有 EP 方法依赖数值积分或对类别特定潜在变量施加独立性假设的局限性。
开发一种可扩展的推断方法，以在保持计算效率的同时捕捉类别间潜在变量的完整后验依赖结构。
实现类别数量的线性缩放，确保在类别数量较多的问题中具有实际可应用性。
为预测不确定性量化提供一种比拉普拉斯近似、变分贝叶斯和 MCMC 方法更准确、更一致的替代方案。

提出的方法

提出一种嵌套 EP 框架，通过使用分层结构对每个似然项的站点近似进行迭代优化，实现近似推断。
采用多元正态分布倾斜矩的解析近似，避免了先前 EP 方法中所需的昂贵数值积分。
保持类别间潜在变量之间的完整后验协方差结构，从而保留类别间的依赖关系。
通过腔参数和站点更新实现后验协方差与均值的秩-1 更新，确保数值稳定性和收敛性。
在站点更新中引入阻尼，以改善收敛性，使用阻尼因子 δ ∈ (0,1] 控制步长。
利用后验均值与协方差的解析表达式，通过块对角和稀疏矩阵结构高效推导测试点的预测分布。

实验结果

研究问题

RQ1嵌套 EP 方法是否能在不依赖数值积分的情况下，准确建模多项式 probit GP 分类中潜在变量的类别间依赖关系？
RQ2所提出的方法是否在保持高预测准确率的同时，实现类别数量的线性缩放？
RQ3在基准数据集上，嵌套 EP 的预测一致性与拉普拉斯近似、变分贝叶斯和 MCMC 方法相比如何？
RQ4保留完整后验依赖关系对分类性能和不确定性量化有何影响？
RQ5该方法能否为 MCMC 提供一种可扩展的替代方案，实现更好的混合性能和更快的收敛速度，尤其适用于高维潜在空间？

主要发现

嵌套 EP 方法在基准数据集上与 MCMC 采样结果的一致性最高，表明其在不确定性量化方面表现更优。
尽管准确率很高，嵌套 EP、拉普拉斯近似、变分贝叶斯和 MCMC 方法之间的分类准确率差异较小，表明其预测性能相当。
该方法在类别数量上实现线性缩放，即使在类别数量较多的问题中也能实现高效推断。
通过避免数值积分并保留完整的后验依赖结构，该方法优于现有 EP 变体（后者通常假设独立性或使用近似）。
通过 Cholesky 分解和秩-1 更新，边缘似然近似与梯度计算可高效完成，保持 O((c+1)n³) 的复杂度。
算法的隐式导数自然抵消，使得可通过仅对边缘似然表达式前两项的显式导数实现可靠的超参数优化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。