Skip to main content
QUICK REVIEW

[論文レビュー] Scalable Log Determinants for Gaussian Process Kernel Learning

Kun Dong, David Eriksson|arXiv (Cornell University)|Nov 9, 2017
Gaussian Processes and Bayesian Inference参考文献 21被引用数 26
ひとこと要約

本稿では、高速行列ベクトル積(MVM)のみを用いて、大規模な正定値カーネル行列の対数行列式およびその微分を推定する、新しいO(n)の確率的手法——チェビシェフ法、ランチョス法、およびサーミュレートモデルベース法——を提案する。この手法により、非ガウス型尤度や複雑なカーネルを含む多様な設定において、スケーラブルなガウス過程カーネル学習が可能となり、特にランチョス法がチェビシェフ法およびサーミュレートモデルを上回る性能を示した。

ABSTRACT

For applications as varied as Bayesian neural networks, determinantal point processes, elliptical graphical models, and kernel learning for Gaussian processes (GPs), one must compute a log determinant of an $n imes n$ positive definite matrix, and its derivatives - leading to prohibitive $\mathcal{O}(n^3)$ computations. We propose novel $\mathcal{O}(n)$ approaches to estimating these quantities from only fast matrix vector multiplications (MVMs). These stochastic approximations are based on Chebyshev, Lanczos, and surrogate models, and converge quickly even for kernel matrices that have challenging spectra. We leverage these approximations to develop a scalable Gaussian process approach to kernel learning. We find that Lanczos is generally superior to Chebyshev for kernel learning, and that a surrogate approach can be highly efficient and accurate with popular kernels.

研究の動機と目的

  • ガウス過程カーネル学習におけるO(n³)の対数行列式および微分計算の計算ボトルネックを解消すること。
  • 既存手法が固有値分解に依存するか、均一な固有値スペクトルを仮定するという制限を克服すること。これは、RBFなどの一般的な機械学習カーネルでは不適切である。
  • 高速行列ベクトル積(MVM)のみを用いて、一般化可能でスケーラブルかつ高精度な対数行列式および微分推定手法を開発すること。
  • 加法的カーネル、マルチタスク学習、対角補正など、高速固有値分解が利用できない設定においてもカーネル学習を可能にすること。
  • 非ガウス型尤度や複雑なカーネル構造(特にディープカーネルを含む)を有する大規模データセットにおいて、高い性能を達成すること。

提案手法

  • MVMを用いたモンテカルロサンプリングにより、対数行列式およびその微分を推定する確率的チェビシェフ法およびランチョス法を提案する。
  • MVMから学習するサーミュレートモデルを導入し、再計算を最小限に抑えて高速かつ高精度な推定を実現する。
  • 任意のデータ位置に適応可能な大規模データセットへのスケーリングを実現する、構造的カーネル補間(SKI)フレームワークからの高速MVMを活用する。
  • 同じMVMを用いて同時に対数行列式とその微分を計算することで、計算オーバーヘッドを低減する。
  • 誤差解析を実施し、最適化収束性の向上を図るため、高階微分への拡張も行う。
  • 提案手法をGPのマージナル尤度最適化に統合し、固有値分解を必要としない勾配ベースのカーネル学習を実現する。

実験結果

リサーチクエスチョン

  • RQ1高速行列ベクトル積(MVM)のみを用いて、大規模なnに対して対数行列式および微分推定をスケーラブルに可能にすることができるか?
  • RQ2スペクトルが困難なカーネル行列に対して、確率的チェビシェフ法とランチョス法の精度および効率はどのように比較されるか?
  • RQ3固有値分解が不適切な設定において、MVMから学習するサーミュレートモデルが、高精度かつ高速な対数行列式推定を可能にするか?
  • RQ4Fiedlerの境界が誤って指定される非ガウス型尤度設定において、本手法はスケーリングされた固有値アプローチを上回るか?
  • RQ5数千のハイパーパrameterと大規模データセットを有する高次元ディープカーネル学習に、本手法はスケーラブルに適用可能か?

主な発見

  • 特に悪条件のスペクトルや急激に減少するスペクトルに対して、ランチョス法がチェビシェフ法を上回り、精度と収束速度に優れた性能を示した。
  • 157,644件のデータ点を持つシカゴ暴行データセットにおいて、ランチョス法はRMSE=1.33、σ²=69.72を達成したが、スケーリングされた固有値法は大幅に大きなσ²=191.17を示し、モデルの誤指定が示された。
  • ランチョス法は264秒でハイパーパrameterを回復したが、スケーリングされた固有値法は67秒で完了したものの、著しく異なるかつ信頼性の低い結果を出力した。
  • 128次元のガスセンサデータセット(n=2,565)におけるディープカーネル学習において、ランチョス法はDNNベースライン(0.1366)を下回るRMSE(0.1053)を達成した。1イテレーションあたりの速度は2.07秒(ランチョス)対0.44秒(DNN)であり、全体の所要時間は長かったが、性能は優れたものであった。
  • サーミュレートモデルアプローチは、特に一般的なカーネルと高速MVMを組み合わせた場合に、高い精度と効率を示した。
  • SKIと組み合わせることで、O(n + g(m))の計算量でスケーラブルなGPカーネル学習が可能となり、n=528,474の学習点を持つ大規模問題に対応した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。