[论文解读] Doubly Stochastic Variational Inference for Deep Gaussian Processes
引入一种针对 Deep Gaussian Processes (DGPs) 的双重随机变分推断方法,该方法保持层间相关性,使在数百到十亿级样本的数据集上实现可扩展训练,并提升与单层 GPs 及若干基线方法相比的性能。
Gaussian processes (GPs) are a good choice for function approximation as they are flexible, robust to over-fitting, and provide well-calibrated predictive uncertainty. Deep Gaussian processes (DGPs) are multi-layer generalisations of GPs, but inference in these models has proved challenging. Existing approaches to inference in DGP models assume approximate posteriors that force independence between the layers, and do not work well in practice. We present a doubly stochastic variational inference algorithm, which does not force independence between layers. With our method of inference we demonstrate that a DGP model can be used effectively on data ranging in size from hundreds to a billion points. We provide strong empirical evidence that our inference scheme for DGPs works well in practice in both classification and regression.
研究动机与目标
- 动机并解决在层之间采用独立性假设来推断 Deep Gaussian Processes (DGPs) 的局限性。
- 开发一种变分后验,在实现可处理计算的同时保持跨层相关性。
- 通过随机优化和小批量处理实现对大数据集的可扩展性。
- 在回归和分类任务中,展示 DGPs 相对于单层 GPs 及其他基线的实证性能提升。
提出的方法
- 在每一层内采用稀疏 inducing point 的变分框架以实现可处理性,同时通过对 inducing points 进行条件化来保持层间相关性。
- 使用一个跨层因式分解的变分后验,但在给定诱导点条件下保留精确模型,从而实现端到端采样。
- 将诱导变量 q(U^l) 表示为均值为 m^l、协方差为 S^l 的高斯分布,并对其解析边缘化,产生对 F^l 完全耦合但可采样的后验。
- 采用三部分后验结构:(i) p(F^l|U^l; F^{l-1}, Z^{l-1}); (ii) q(U^l) = N(m^l, S^l); (iii) 通过一元高斯分布的重参数化技巧抽样(通过各层展开)获得样本。
- 推导一个双重随机的证据下界,使用 (a) 从变分后验进行跨层样本的蒙特卡洛采样,以及 (b) 基于小批量数据子采样以实现可扩展性。
- 在测试输入处通过从变分后验采样来进行预测,使用多次采样的高斯混合近似 q(f_*^L)。
实验结果
研究问题
- RQ1变分后验是否可以在 DGPs 中保留层间依赖性,而不是强加层间独立性?
- RQ2在使用稀疏 inducing points 的同时保持层间相关性,是否能够实现对大规模数据上 DGPs 的可扩展推断?
- RQ3多层 DGPs 是否在回归与分类基准测试中相对于单层 GPs 提供经验上的改进,包括大规模数据集?
- RQ4与现有 DGPs 推断方法相比,所提出的双重随机方法在时间和内存上的计算权衡是什么?
主要发现
- 所提出的双重随机变分推断保留层相关性并扩展到非常大的数据规模,在若干任务上优于单层 GPs。
- 在回归基准测试中,较深的 DGPs(2–5 层)通常优于使用相同或更多诱导点的稀疏 GP 基线,有时甚至达到或超过最佳基线的性能。
- 在大规模回归和分类数据集中,较深的 DGPs 始终优于浅层模型,且在非常大规模数据集(例如 taxi、MNIST、HIGGS、SUSY)上有明显提升。
- 对于 MNIST,二层和三层 DGP 将测试准确率从 97.48%(单层)分别提升至 98.06% 和 98.11%。
- 该方法使得可以训练到多达五层的 DGPs,并在大规模任务上相较于 SGPs 展示出显著的 RMSE 改进(例如 taxi 数据集达到 1B 点)。
- 实现紧凑(<200 行)并与 GPflow 集成,便于实际应用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。