[论文解读] Scalable Log Determinants for Gaussian Process Kernel Learning
本文提出了一种新颖的 O(n) 随机方法——切比雪夫法、Lanczos 法以及基于代理模型的方法,仅通过快速矩阵-向量乘法(MVMs)来估计大规模正定核矩阵的对数行列式及其导数。该方法在各种场景下实现了可扩展的高斯过程核学习,包括非高斯似然和复杂核结构,其中 Lanczos 方法优于切比雪夫法,而代理模型则展现出高效率与高精度。
For applications as varied as Bayesian neural networks, determinantal point processes, elliptical graphical models, and kernel learning for Gaussian processes (GPs), one must compute a log determinant of an $n imes n$ positive definite matrix, and its derivatives - leading to prohibitive $\mathcal{O}(n^3)$ computations. We propose novel $\mathcal{O}(n)$ approaches to estimating these quantities from only fast matrix vector multiplications (MVMs). These stochastic approximations are based on Chebyshev, Lanczos, and surrogate models, and converge quickly even for kernel matrices that have challenging spectra. We leverage these approximations to develop a scalable Gaussian process approach to kernel learning. We find that Lanczos is generally superior to Chebyshev for kernel learning, and that a surrogate approach can be highly efficient and accurate with popular kernels.
研究动机与目标
- 解决高斯过程核学习中 O(n³) 对数行列式与导数计算带来的计算瓶颈。
- 克服现有方法依赖特征分解或假设均匀特征谱分布的局限性,这些假设在 RBF 等典型机器学习核中不成立。
- 开发仅使用快速矩阵-向量乘法(MVMs)的通用、可扩展且高精度的对数行列式与导数估计方法。
- 在快速特征分解不可用的场景下实现核学习,例如加法核、多任务学习和对角修正。
- 在具有非高斯似然和复杂核结构的大规模数据集上实现高性能,包括深度核结构。
提出的方法
- 提出基于蒙特卡洛采样的随机切比雪夫法与 Lanczos 法,通过 MVMs 估计对数行列式及其导数。
- 引入一种代理模型方法,从 MVMs 中学习对数行列式函数,实现低重新计算开销下的快速且精确的估计。
- 利用结构化核插值(SKI)框架中的快速 MVMs,使方法可扩展至具有任意数据位置的大规模数据集。
- 通过相同的 MVMs 同时计算对数行列式及其导数,降低计算开销。
- 进行误差分析,并将方法扩展至高阶导数,以提升优化收敛性。
- 将所提方法集成至 GP 边际似然优化中,实现无需特征分解的基于梯度的核学习。
实验结果
研究问题
- RQ1是否能仅通过快速矩阵-向量乘法实现对大规模 n 的对数行列式与导数估计的可扩展性?
- RQ2在具有挑战性谱分布的核矩阵对数行列式估计中,随机切比雪夫法与 Lanczos 法在精度与效率上的表现如何比较?
- RQ3在特征分解不可行的场景下,基于 MVMs 训练的代理模型能否提供准确且快速的对数行列式估计?
- RQ4在 Fiedler 边界被误设的非高斯似然设置中,所提方法是否优于缩放特征值方法?
- RQ5该方法能否在包含数千个超参数和大规模数据集的高维深度核学习中实现可扩展性?
主要发现
- 在核学习中,Lanczos 方法在精度与收敛速度上优于切比雪夫法,尤其在病态条件或快速衰减谱的情况下表现更优。
- 在芝加哥暴力袭击数据集(n=157,644)上,Lanczos 方法的 RMSE=1.33,σ²=69.72,而缩放特征值方法的 σ²=191.17,表明模型存在误设。
- Lanczos 方法在 264 秒内恢复了超参数,而缩放特征值方法仅需 67 秒但结果显著不同且可靠性更低。
- 在 128 维气体传感器数据集(n=2,565)上的深度核学习中,Lanczos 方法的 RMSE(0.1053)低于 DNN 基线(0.1366),且每次迭代耗时更短(2.07s vs. 0.44s),尽管总时间更长。
- 代理模型方法展现出高精度与高效率,尤其在常用核结构与快速 MVMs 下表现优异。
- 结合 SKI 框架后,该方法实现了 O(n + g(m)) 的复杂度,支持大规模问题(n=528,474 个训练点)的可扩展高斯过程核学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。