[论文解读] Deep Gaussian Processes for Regression using Approximate Expectation Propagation
本文提出一种可扩展的近似贝叶斯方法,用于训练深度高斯过程(DGP),使用稀疏 FITC 近似、基于 EP 的能量优化并具绑定因子,以及概率性反向传播,在回归性能方面优于 GP 和许多贝叶斯神经网络方法。
Deep Gaussian processes (DGPs) are multi-layer hierarchical generalisations of Gaussian processes (GPs) and are formally equivalent to neural networks with multiple, infinitely wide hidden layers. DGPs are nonparametric probabilistic models and as such are arguably more flexible, have a greater capacity to generalise, and provide better calibrated uncertainty estimates than alternative deep models. This paper develops a new approximate Bayesian learning scheme that enables DGPs to be applied to a range of medium to large scale regression problems for the first time. The new method uses an approximate Expectation Propagation procedure and a novel and efficient extension of the probabilistic backpropagation algorithm for learning. We evaluate the new method for non-linear regression on eleven real-world datasets, showing that it always outperforms GP regression and is almost always better than state-of-the-art deterministic and sampling-based approximate inference methods for Bayesian neural networks. As a by-product, this work provides a comprehensive analysis of six approximate Bayesian methods for training neural networks.
研究动机与目标
- 在回归任务中激励并实现对深度高斯过程(DGP)的可扩展贝叶斯学习。
- 开发一种将 FITC 稀疏 GP、带绑定因子约束的近似 EP 与概率性反向传播相结合的新推断方案。
- 在多样化的真实数据集上,展示相较于 GP 回归和贝叶斯神经网络方法的改进的预测性能与不确定性校准。
提出的方法
- 使用 Fully Independent Training Conditional (FITC) 来稀疏化 GP 层并引入诱导输出 u 以降低三次方级别的复杂度。
- 应用带绑定因子约束的近似 Expectation Propagation (EP) 能量来推断诱导输出与超参数的后验。
- 使用概率性反向传播(假设密度筛选)在深度 GP 层中传播高斯近似并计算 log Z 与梯度。
- 直接优化 EP 能量(或其绑定因子等价形式)以实现可扩展推断,而无需昂贵的双环 EP 流程。
- 通过利用小批量实现随机优化,以可扩展的训练目标聚合每个数据点的贡献。
- 通过前向高斯传播贯穿各层,提供概率预测分布。
实验结果
研究问题
- RQ1是否能够在中到大规模下,使用稀疏近似和基于 EP 的推断来高效训练深度高斯过程?
- RQ2提出的 FITC-DGP 与近似 EP 及概率性反向传播相结合,是否在真实数据集上优于标准 GP 与贝叶斯神经网络在回归性能与不确定性量化方面?
- RQ3增加更多层次、维度或诱导点如何影响 DGP 的预测性能与不确定性?
- RQ4该方法在计算和内存方面的可扩展性是否与变分方法相当,同时保持准确性?
主要发现
- 采用所提出推断方案的 DGP 在所有测试数据集上均优于 GP 回归。
- 在大多数情况下,具有额外层数或更高维度隐藏层的 DGP 相对于基线获得进一步的预测提升。
- 在所评估任务中,该方法通常优于最先进的确定性和基于采样的贝叶斯神经网络近似推断方法。
- DGP 提供良好校准的不确定性估计和具有竞争力的 RMSE 结果,而基于 VI 的 BNN 方法在不确定性量化方面通常表现不佳。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。