QUICK REVIEW

[论文解读] Exact Gaussian Processes on a Million Data Points

Ke Alexander Wang, Geoff Pleiss|arXiv (Cornell University)|Mar 19, 2019

Gaussian Processes and Bayesian Inference参考文献 48被引用 31

一句话总结

本论文提出了一种可扩展的多GPU框架，用于在最多一百万个数据点的数据集上实现精确高斯过程（GP）推理，通过黑箱矩阵-矩阵（BBMM）乘法和共轭梯度法绕过标准的O(n³)计算瓶颈。该方法在8块GPU上对100万个数据点实现精确GP训练的时间不足2小时，相较于UCI数据集上的可扩展近似方法，RMSE降低两倍。

ABSTRACT

Gaussian processes (GPs) are flexible non-parametric models, with a capacity that grows with the available data. However, computational constraints with standard inference procedures have limited exact GPs to problems with fewer than about ten thousand training points, necessitating approximations for larger datasets. In this paper, we develop a scalable approach for exact GPs that leverages multi-GPU parallelization and methods like linear conjugate gradients, accessing the kernel matrix only through matrix multiplication. By partitioning and distributing kernel matrix multiplies, we demonstrate that an exact GP can be trained on over a million points, a task previously thought to be impossible with current computing hardware, in less than 2 hours. Moreover, our approach is generally applicable, without constraints to grid data or specific kernel classes. Enabled by this scalability, we perform the first-ever comparison of exact GPs against scalable GP approximations on datasets with $10^4 \!-\! 10^6$ data points, showing dramatic performance improvements.

研究动机与目标

为最多一百万个训练点的数据集实现精确高斯过程推理，这一领域此前因O(n³)计算成本和O(n²)内存成本而不可行。
通过在大规模数据上提供一个实用且高精度的基线，弥合精确GP与可扩展GP近似方法之间的性能差距。
开发一种通用、核无关的方法，无需依赖网格结构数据或特定核族。
证明非参数模型如GP在数据规模超过10⁴点后，仍能从大规模数据中显著获益。
通过在10⁴–10⁶数据点范围内提供精确解作为黄金标准，实现GP近似方法的公平基准测试。

提出的方法

采用黑箱矩阵-矩阵（BBMM）推理，将GP训练重新表述为迭代矩阵乘法，避免直接进行Cholesky分解。
使用带Pivoted Cholesky预条件的线性共轭梯度（CG）方法，高效且准确地求解GP系统。
通过分割核矩阵，将核矩阵乘法分布到多个GPU上，将每块GPU的内存降至O(n)，从而实现超过10⁴点的可扩展性。
应用实用启发式方法，如超参数初始化和缓存策略，以加速训练，并实现在单块GPU上每预测一次的推理时间低于1秒。
在大规模数据集上使用Adam优化，步数减少（例如100步），在保持精度的同时最小化训练时间。
支持任意输入维度和核类型（包括RBF和Matérn），且无架构限制。

实验结果

研究问题

RQ1能否在标准硬件和现有优化技术下，对超过一百万个数据点的数据集实现精确高斯过程训练？
RQ2当在10⁴–10⁶个数据点上训练时，精确GP与可扩展GP近似方法（如SGPR、SVGP）相比，其预测性能如何？
RQ3非参数模型（如GP）在数据规模超过10⁴点后，其性能是否仍会随着数据量增加而持续提升？如果是，提升幅度如何？
RQ4在大规模场景下，精确GP推理的计算成本是多少？能否通过现代多GPU系统将训练时间降至实用水平？
RQ5所提出的基于BBMM的方法是否可普遍适用于不同核族和数据结构，而无需特殊假设？

主要发现

在1,311,539个点（HouseElectric数据集）上训练的精确GP，RMSE为0.049，优于最佳可扩展近似方法（SVGP）的0.086 RMSE，相对提升达42%。
在3DRoad数据集（278,319个点）上，精确GP的RMSE为0.106，而SGPR为0.654，SVGP为0.475，分别实现84%和78%的误差降低。
在100万个点上，使用8块GPU的精确GP训练时间不足2小时，通过缓存实现每预测一次的推理时间低于1秒。
在34,240个点（CTslice）上，使用8块GPU的训练时间缩短至41.7秒，而可扩展近似方法需77.5–137秒。
在大型数据集（如HouseElectric）上，精确GP仅需3.29天（100次Adam步数），而SVGP需4.22小时，表明在使用高效求解器时，精确GP可用更少的优化步数更快训练。
本研究证实，非参数模型（如GP）在数据增长时仍能显著受益，即使在大规模下性能也明显提升，凸显了在大规模数据场景中精确推理的价值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。