QUICK REVIEW

[論文レビュー] Distributed Variational Inference in Sparse Gaussian Process Regression and Latent Variable Models

Yarin Gal, Mark van der Wilk|arXiv (Cornell University)|Feb 6, 2014

Gaussian Processes and Bayesian Inference参考文献 16被引用数 84

ひとこと要約

本稿では、スパースガウス過程回帰および潜在変数モデルに対する分散型変分推論アルゴリズムを提案する。この手法は、与えられた誘導点に対してデータを分離する再パrameterizationを活用することで、効率的なMap-Reduce並列処理を可能にする。本手法は200万件のデータポイントにスケーリング可能であり、フライトデータおよびMNISTデータにおいてベースラインより優れたGP性能を達成するとともに、通信オーバーヘッドを最小限に抑えつつノード間で負荷をバランスさせる。

ABSTRACT

Gaussian processes (GPs) are a powerful tool for probabilistic inference over functions. They have been applied to both regression and non-linear dimensionality reduction, and offer desirable properties such as uncertainty estimates, robustness to over-fitting, and principled ways for tuning hyper-parameters. However the scalability of these models to big datasets remains an active topic of research. We introduce a novel re-parametrisation of variational inference for sparse GP regression and latent variable models that allows for an efficient distributed algorithm. This is done by exploiting the decoupling of the data given the inducing points to re-formulate the evidence lower bound in a Map-Reduce setting. We show that the inference scales well with data and computational resources, while preserving a balanced distribution of the load among the nodes. We further demonstrate the utility in scaling Gaussian processes to big data. We show that GP performance improves with increasing amounts of data in regression (on flight data with 2 million records) and latent variable modelling (on MNIST). The results show that GPs perform better than many common models often used for big data.

研究の動機と目的

大規模データにおけるスパースガウス過程モデルのスケーラビリティ制限を解消すること。
GP回帰および潜在変数モデルのための効率的で負荷がバランス取れた分散推論を可能にすること。
スケーラブルな推論を用いることで、データ量の増加に伴いGPの性能が向上することを示すこと。
Titsias (2009)のタイトな変分下界を維持しつつ並列処理を可能にする分散アルゴリズムを開発すること。
実世界のデータセット（フライトデータやMNISTなど）における大規模GPの実用的価値を示すこと。

提案手法

誘導点が与えられたもとでのデータの独立性を実現する再パラメータライゼーションを用いて、エビデンス下界（ELBO）を再定式化し、ノード単位の独立した更新を可能にする。
Map-Reduceパラダイムを用いて計算をノード間で分散処理し、ノード間通信は定数時間で済ませる。
誘導ターゲット上の変分分布の解析的最適形を用い、Titsias (2009)のELBOのタイトさを保持する。
データ依存性を分離することで、GPLVMにおける潜在変数埋め込みの並列最適化を可能にする。
Map-Reduceフレームワークを用いてPythonで実装し、オープンソースとして公開する。
ハイパーパramータおよび誘導点の最適化にLBFGSおよびSCG最適化手法を用い、慎重な初期化戦略を導入する。

実験結果

リサーチクエスチョン

RQ1スパースGP回帰およびGPLVMにおける変分推論を、ELBOのタイトさを保持しつつ、効率的に分散処理できるか？
RQ2提案された分散アルゴリズムは、データサイズおよび計算リソースの増加に伴いどのようにスケーリングするか？
RQ3200万ポイントのデータセットで学習したガウス過程は、標準モデルと比較して予測性能が向上するか？
RQ4分散環境下でも負荷分散がバランス良く保たれ、通信オーバーヘッドが低減されるか？
RQ5大規模データセットで学習した場合、GPの性能はランダムフォレストや線形モデルといった一般的なビッグデータモデルと比較してどうなるか？

主な発見

提案された分散推論は200万件のフライト記録にスケーリング可能で、RMSE 35.31を達成。線形回帰（37.65）、リッジ回帰（37.65）、ランダムフォレスト（37.33）、200個の誘導点を用いたSVIよりも優れた性能を示した。
全MNISTデータセット（6万ポイント）を用いた場合、全データで学習した場合の分類誤差は8.98%から5.95%に低下し、データ量の増加に伴い性能向上が確認された。
64コアで200万ポイントのデータを学習する場合、1イタレーションあたり約13.8分で、計算リソースの増加に伴い良好なスケーリングを示した。
LBFGS最適化手法は、特に大規模データセットにおいて、SCGに比べ収束安定性に優れており、尤度モードの鋭利化によりSCGが劣悪な解に収束するのを防いだ。
アルゴリズムはノード間で負荷がバランス良く分散され、ノード間通信は定数時間で済ませ、効率的な並列処理が可能であった。
補足資料におけるランダムドロップアウト実験を通じて、オープンソース実装がノード障害に対しても頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。