QUICK REVIEW

[论文解读] Rates of Convergence for Sparse Variational Gaussian Process Regression

David R. Burt, Carl Edward Rasmussen|arXiv (Cornell University)|Mar 8, 2019

Gaussian Processes and Bayesian Inference参考文献 36被引用 49

一句话总结

本文分析在数据集大小 N 增长时，诱导变量数 M 如何可以以亚线性方式增长，以使变分 GP 后验之间的 KL 散度可以任意小，给出先验界限和对 SE 与 Matérn 核的具体增长率。

ABSTRACT

Excellent variational approximations to Gaussian process posteriors have been developed which avoid the $\mathcal{O}\left(N^3 ight)$ scaling with dataset size $N$. They reduce the computational cost to $\mathcal{O}\left(NM^2 ight)$, with $M\ll N$ being the number of inducing variables, which summarise the process. While the computational cost seems to be linear in $N$, the true complexity of the algorithm depends on how $M$ must increase to ensure a certain quality of approximation. We address this by characterising the behavior of an upper bound on the KL divergence to the posterior. We show that with high probability the KL divergence can be made arbitrarily small by growing $M$ more slowly than $N$. A particular case of interest is that for regression with normally distributed inputs in D-dimensions with the popular Squared Exponential kernel, $M=\mathcal{O}(\log^D N)$ is sufficient. Our results show that as datasets grow, Gaussian process posteriors can truly be approximated cheaply, and provide a concrete rule for how to increase $M$ in continual learning scenarios.

研究动机与目标

通过理解诱导点如何影响近似质量，推动稀疏变分 GP 回归的实际尺度扩展。
利用核算子谱性质推导变分后验与真实 GP 后验之间 KL 散度的先验界限。
证明在常见核和输入分布下，M 可以随 N 亚线性增长，同时保持精度。
为诱导特征设计（跨域特征和诱导点）及初始化提供可扩展推断的指导。

提出的方法

使用 KL 散度作为近似后验质量的度量，并将其与数据协方差的 Nyström 近似误差相关联。
给出 KL(Q || P_hat) 的事后和先验界限，涉及 Nyström 误差 t 和特征值和；并将其与核算子的谱性质联系起来。
引入用于诱导变量的特征函数和特征变量构造；将诱导特征与积分算子 K 的特征值/特征函数相关联。
将理论界限转化为实用的诱导方案：跨域诱导特征和基于 Nyström 的诱导点，并以 k-DPP 启发的初始化方式进行初始化。
将界限具体化为平方指数核和 Matérn 核，得到与 N 相关的明确的 M 增长率（例如，对 SE 在 D 维时，M = O(log^D N)。
在高维输入和 SE-ARD 核在高斯输入分布下提供推断推导。

实验结果

研究问题

RQ1随着数据集规模 N 增长，诱导变量数量 M 必须达到的最小增长率，以确保变分 GP 后验与真实后验的 KL 散度渐近消失？
RQ2核算子的谱衰减如何影响实现精确稀疏 GP 回归所需的诱导变量数量？
RQ3跨域特征或诱导点是否可以初始化以实现接近最优的先验 KL 界限？这对实际可扩展性有何影响？
RQ4在收敛所需的诱导变量增长方面，平方指数核与 Matérn 核的结果有何区别？
RQ5对于高维数据（D 维）和 SE-ARD 核在诱导变量增长速率上的意义是什么？

主要发现

在适当条件下，当 M 的增长速度慢于 N 时，变分后验 Q 与后验 P_hat 之间的 KL 散度可以被任意减小。
对于在 D 维中的高斯输入的 SE 核，M = O(log^D N) 足以在高概率下使 KL 收敛为零。
对于一维的 Matérn k+1/2 核，在先验界限下，M 可以按 N^α 增长，其中 α > 1/(2k+1)，以确保收敛。
特征函数（和特征变量）诱导变量给出界，使得 KL 与尾部特征值之和 C = N Σ_{m>M} λ_m 成比例；若 λ_m 下降足够快，则 M 可以在 N 的子线性范围内。
基于 Nyström 的界限的诱导点，其收敛速率与跨域特征相当，尤在初始化以反映经验输入密度时。
在具有 SE-ARD 核和高斯输入的多维设置中，在给定假设下，M = O(log^D N) 仍然足够；表格总结了特征值衰减情景（紧支集、均匀、高斯输入）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。