Skip to main content
QUICK REVIEW

[論文レビュー] Rates of Convergence for Sparse Variational Gaussian Process Regression

David R. Burt, Carl Edward Rasmussen|arXiv (Cornell University)|Mar 8, 2019
Gaussian Processes and Bayesian Inference参考文献 36被引用数 49
ひとこと要約

本論文は、誘導変数の数 M がデータセットサイズ N に対して低次的に増加することで、変分GP後方分布間のKLダイバージェンスを任意に小さくできることを分析し、SEカーネルとマテルンカーネルに対する事前境界と具体的な成長率を提供する。

ABSTRACT

Excellent variational approximations to Gaussian process posteriors have been developed which avoid the $\mathcal{O}\left(N^3 ight)$ scaling with dataset size $N$. They reduce the computational cost to $\mathcal{O}\left(NM^2 ight)$, with $M\ll N$ being the number of inducing variables, which summarise the process. While the computational cost seems to be linear in $N$, the true complexity of the algorithm depends on how $M$ must increase to ensure a certain quality of approximation. We address this by characterising the behavior of an upper bound on the KL divergence to the posterior. We show that with high probability the KL divergence can be made arbitrarily small by growing $M$ more slowly than $N$. A particular case of interest is that for regression with normally distributed inputs in D-dimensions with the popular Squared Exponential kernel, $M=\mathcal{O}(\log^D N)$ is sufficient. Our results show that as datasets grow, Gaussian process posteriors can truly be approximated cheaply, and provide a concrete rule for how to increase $M$ in continual learning scenarios.

研究の動機と目的

  • 誘導点が近似品質に与える影響を理解することで、疎な変分GP回帰の実用的なスケーリングを動機づける。
  • カーネル演算子のスペクトル特性を用いて、変分後方分布と真のGP後方分布とのKLダイバージェンスの事前境界を導出する。
  • 一般的なカーネルと入力分布に対して、精度を維持しつつ M が N に対して低次的に増加できることを示す。
  • スケーラブルな推論を実現するための誘導特徴設計(インタードメイン特徴と誘導点)および初期化の指針を提供する。

提案手法

  • KLダイバージェンスを近似後方分布品質の指標として用い、データ共分散のNyström近似誤差と関連づける。
  • Nyström誤差 t および固有値の和に基づく KL(Q || P_hat) の後方および事前境界を導出し、カーネル作用素のスペクトル特性と結びつける。
  • 誘導変数の固有関数および固有特徴の構成を導入し、誘導特徴を積分演算子 K の固有値/固有関数と関連づける。
  • 理論境界を実用的な誘導スキームへ翻訳する:インタードメイン誘導特徴とNyströmベースの誘導点、k-DPPに触発された初期化を用いる。
  • 境界を二乗指数関数カーネルとマテルンカーネルに特化し、N に対する明示的な M の成長率を得る(例: SE の場合 D 次元で M = O(log^D N))。
  • ガウス分布入力下の多次元入力および SE-ARD カーネルに関する系結果を提供する。

実験結果

リサーチクエスチョン

  • RQ1データセットサイズ N に対して誘導変数の数 M の最小成長率は何を要せば、変分GP後方と真の後方のKLダイバージェンスが漸近的に消失するか?
  • RQ2カーネル作用素のスペクトル減衰が、正確な疎GP回帰に必要な誘導変数数にどう影響するか?
  • RQ3インタードメイン特徴または誘導点を事前最適境界に近い初期化が可能か、またそれが実用的なスケーラビリティにどう影響するか?
  • RQ4収束に必要な誘導変数の増加について、二乗指数関数カーネルとマテルンカーネルで結果はどう異なるか?
  • RQ5高次元データ(D 次元)および SE-ARD カーネルが誘導変数の成長率へ及ぼす影響は何か?

主な発見

  • KL ダイバージェンスを変分後方 Q と後方 P_hat の間で、適切な条件下で M が N より遅く増加する場合、任意に小さくすることができる。
  • D 次元のガウス入力を持つSEカーネルについて、M = O(log^D N) で高い確率で KL をゼロにするのに十分である。
  • 1D の Matérn k+1/2 カーネルでは、事前境界の下で収束を保証するために M が N^α の成長をし、α > 1/(2k+1) とすることができる。
  • 固有関数(および固有特徴)誘導変数は、KL がカーネル作用素の尾部固有値の総和 C = N Σ_{m>M} λ_m に比例する境界を生み出す。λ_m の減衰が十分速い場合、M は N に対して低次であり得る。
  • Nyströmベースの境界を持つ誘導点は、特に経験的入力密度を反映する初期化を行った場合、インタードメイン特徴と同等の収束速率を示す。
  • SE-ARDカーネルとガウス入力を伴う多次元設定では、前述の仮定の下で M = O(log^D N) が依然十分である;表は固有値減衰シナリオを要約する(コンパクトサポート、均一、ガウス入力)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。