QUICK REVIEW

[论文解读] Approximate Inference for Fully Bayesian Gaussian Process Regression

Vidhi Lalchand, Carl Edward Rasmussen|arXiv (Cornell University)|Dec 31, 2019

Gaussian Processes and Bayesian Inference参考文献 20被引用 23

一句话总结

本文提出用于完全贝叶斯高斯过程回归的近似推理方法——哈密顿蒙特卡洛（HMC）和变分推理（VI），以解决超参数后验分布不可计算的问题。结果表明，完全贝叶斯方法在预测性能上优于II类最大似然法（ML-II），其中HMC和全秩VI在基准数据集上的表现优于均值场VI和ML-II。

ABSTRACT

Learning in Gaussian Process models occurs through the adaptation of hyperparameters of the mean and the covariance function. The classical approach entails maximizing the marginal likelihood yielding fixed point estimates (an approach called extit{Type II maximum likelihood} or ML-II). An alternative learning procedure is to infer the posterior over hyperparameters in a hierarchical specification of GPs we call extit{Fully Bayesian Gaussian Process Regression} (GPR). This work considers two approximation schemes for the intractable hyperparameter posterior: 1) Hamiltonian Monte Carlo (HMC) yielding a sampling-based approximation and 2) Variational Inference (VI) where the posterior over hyperparameters is approximated by a factorized Gaussian (mean-field) or a full-rank Gaussian accounting for correlations between hyperparameters. We analyze the predictive performance for fully Bayesian GPR on a range of benchmark data sets.

研究动机与目标

解决高斯过程回归中II类最大似然法（ML-II）的局限性，其存在非凸性、局部最优解以及不确定性低估的问题。
通过近似不可计算的超参数后验分布和潜在函数后验，实现对超参数的完全贝叶斯推断。
在分层GP框架中，评估基于近似推理方法（HMC与VI）的预测性能与不确定性量化，与标准ML-II方法进行对比。
研究在超参数识别较弱或似然函数表面平坦的情况下，超参数不确定性如何传播至预测后验。
证明ML-II点估计通常位于次优的局部最优解中，导致过拟合和泛化性能差，尤其在高维超参数空间中更为明显。

提出的方法

通过无U-转弯采样器（NUTS）使用哈密顿蒙特卡洛（HMC）从超参数与潜在函数的联合后验中抽取样本，从而准确近似不可计算的超参数后验。
采用变分推理（VI），分别使用均值场（因子化高斯分布）和全秩（协方差感知）近似方法对超参数后验进行近似，最小化近似后验与真实后验之间的KL散度。
通过积分近似超参数后验，推导出预测分布为高斯混合模型：$ p(f^*|y) \approx \frac{1}{M} \sum_{j=1}^M p(f^*|y, \theta_j) $，其中 $ \theta_j \sim p(\theta|y) $。
利用对潜在函数值 $ f $ 的解析边缘化，将预测后验简化为仅依赖于超参数后验的函数，再通过采样或变分优化对后验进行近似。
使用无U-转弯采样器（NUTS）进行HMC，以避免随机游走行为，确保对超参数空间的高效探索，收敛性通过R-hat值和有效样本量进行评估。
实现全秩VI以捕捉超参数之间的相关性，从而在高维或相关性较强的超参数空间中，相比均值场VI，显著提升近似精度。

实验结果

研究问题

RQ1在基准数据集上，HMC与基于VI的近似推理方法与ML-II相比，其预测性能如何？
RQ2在对超参数进行适当的不确定性量化后，完全贝叶斯GP回归是否能实现优于ML-II点估计的泛化性能？
RQ3通过HMC与VI推断出的超参数后验与ML-II估计值在多大程度上存在差异？它们是否位于更优的局部最优解中？
RQ4在均值场VI与全秩VI之间，选择对超参数后验近似质量及预测性能有何影响？
RQ5超参数不确定性对预测后验的影响如何？不同近似方案在多大程度上准确捕捉了这种传播效应？

主要发现

在CO2、Wine和Concrete数据集上，HMC与全秩VI在预测性能上持续优于ML-II与均值场VI，测试对数损失更低，且不确定性校准更优。
ML-II对超参数的点估计位于次优的局部最优解中，这一点由完全贝叶斯方法产生更优的预测结果和更高的边际似然值所证实。
均值场VI产生的后验边际分布比HMC与全秩VI更窄，表明其对不确定性的低估；而全秩VI的后验分布与HMC结果高度接近。
在全贝叶斯方法下估计的噪声标准差高于ML-II，表明ML-II低估了噪声，可能导致过拟合，尤其在Airline数据集中表现明显。
HMC的收敛性通过R-hat值接近1.0以及高有效样本量（如大多数参数的n_eff > 700）得到确认，表明后验抽样可靠。
全贝叶斯推断下的预测后验为高斯混合模型，HMC与VI的近似方法成功捕捉了该复杂且非高斯的结构，提升了对模型误设的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。