[论文解读] Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonian Monte Carlo
本文提出随机梯度哈密顿蒙特卡洛(SGHMC)用于深度高斯过程(DGPs)的精确后验抽样,克服了变分推断在捕捉非高斯后验分布方面的局限性。通过引入移动窗口MCEM算法,实现了高效的超参数优化,在中大型数据集上以更低的计算成本实现了最先进性能。
Deep Gaussian Processes (DGPs) are hierarchical generalizations of Gaussian Processes that combine well calibrated uncertainty estimates with the high flexibility of multilayer models. One of the biggest challenges with these models is that exact inference is intractable. The current state-of-the-art inference method, Variational Inference (VI), employs a Gaussian approximation to the posterior distribution. This can be a potentially poor unimodal approximation of the generally multimodal posterior. In this work, we provide evidence for the non-Gaussian nature of the posterior and we apply the Stochastic Gradient Hamiltonian Monte Carlo method to generate samples. To efficiently optimize the hyperparameters, we introduce the Moving Window MCEM algorithm. This results in significantly better predictions at a lower computational cost than its VI counterpart. Thus our method establishes a new state-of-the-art for inference in DGPs.
研究动机与目标
- 为解决变分推断在DGPs中的局限性,即其假设后验分布为单峰高斯分布,而实际证据表明后验分布具有多峰、非高斯特性。
- 开发一种可扩展且高效的基于抽样的推断方法,适用于具有复杂分层不确定性结构的大规模DGPs。
- 提出一种新型超参数优化算法,实现基于MCMC的DGP推断中快速且稳定的学习。
- 通过实证验证,DGPs中的后验分布为非高斯分布,从而证明采用灵活抽样方法的必要性。
- 通过结合SGHMC抽样与高效超参数学习,在回归与分类基准上建立DGP推断的新最先进水平。
提出的方法
- 将随机梯度哈密顿蒙特卡洛(SGHMC)应用于直接从DGPs的后验分布中抽样,从而准确表征多峰与非高斯后验分布。
- 提出移动窗口蒙特卡洛期望最大化(MCEM)算法,通过利用MCMC样本的滑动窗口,高效优化超参数。
- 采用诱导点框架近似完整GP后验分布,避免全协方差矩阵求逆,提升可扩展性。
- 采用随机梯度方法,利用小批量数据更新超参数,结合MCMC抽样与在线优化,提升效率。
- 在分类任务中应用Robust-Max似然函数,使深度GP模型能够实现不确定性感知预测。
- 采用预 burn-in 阶段后接抽样阶段,生成200个后验样本,并通过样本滑动窗口迭代更新超参数。
实验结果
研究问题
- RQ1在真实世界的回归数据集中,深度高斯过程(DGPs)的后验分布是否为非高斯分布,特别是具有多峰特性?
- RQ2与变分推断相比,随机梯度哈密顿蒙特卡洛(SGHMC)能否为DGPs提供更准确的后验近似?
- RQ3所提出的移动窗口MCEM算法是否相比标准MCEM或变分方法,实现了更快且更稳定的超参数优化?
- RQ4SGHMC-based DGP推断在中大型数据集上是否能实现优于最先进变分方法(如双重随机变分推断,DSVI)的预测性能?
- RQ5在实际应用中,SGHMC与DSVI相比,其计算成本如何,特别是在收敛速度与最终性能方面?
主要发现
- 在测试的全部9个UCI回归数据集中,DGPs的后验分布均为非高斯分布,诱导输出中表现出强烈的多峰行为证据。
- 在哈佛清洁能源项目数据集上,SGHMC DGP实现了-0.83的测试对数似然,创下新最先进水平,优于DSVI与BNN基线模型。
- 在MNIST分类任务中,SGHMC DGP达到98.0%的准确率,优于基线DGP(97.8%),并匹配表现最佳的解耦DGP(98.1%)。
- 在蛋白质数据集上,SGHMC比DSVI快1.6倍收敛,且在更少迭代次数内达到更高的测试对数似然。
- 移动窗口MCEM算法实现了高效的超参数优化,在降低计算成本的同时提升了预测性能。
- 尽管抽样方法复杂度更高,SGHMC-based推断在中大型数据集上仍实现了优于DSVI的不确定性校准与预测性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。