QUICK REVIEW

[論文レビュー] Doubly Stochastic Variational Inference for Deep Gaussian Processes

Hugh Salimbeni, Marc Peter Deisenroth|arXiv (Cornell University)|May 24, 2017

Gaussian Processes and Bayesian Inference参考文献 16被引用数 50

ひとこと要約

二重確率的変分推論法を Deep Gaussian Processes (DGPs) に導入し、層間相関を保持可能にする。これにより、数百点から十億点規模のデータセットでの訓練がスケーラブルとなり、単層GPsおよびいくつかのベースラインより性能が向上する。

ABSTRACT

Gaussian processes (GPs) are a good choice for function approximation as they are flexible, robust to over-fitting, and provide well-calibrated predictive uncertainty. Deep Gaussian processes (DGPs) are multi-layer generalisations of GPs, but inference in these models has proved challenging. Existing approaches to inference in DGP models assume approximate posteriors that force independence between the layers, and do not work well in practice. We present a doubly stochastic variational inference algorithm, which does not force independence between layers. With our method of inference we demonstrate that a DGP model can be used effectively on data ranging in size from hundreds to a billion points. We provide strong empirical evidence that our inference scheme for DGPs works well in practice in both classification and regression.

研究の動機と目的

層間の独立仮定を前提とした Deep Gaussian Processes (DGPs) の推定の限界を動機付け、課題に対処する。
層間の相関を維持しつつ計算可能性を確保する変分後方分布を開発する。
確率的最適化とミニバッチ処理によって大規模データセットへのスケーラビリティを達成する。
回帰と分類タスクにおいて、単一層の GP や他のベースラインと比較して DGPs の実証的な性能向上を示す。

提案手法

各層内で疎な inducing point 変分フレームワークを採用して計算可能性を確保しつつ、 inducing points を条件とすることで層間の相関を保持する。
層をまたいで因子分解する変分後方分布を用いながら、 inducing points を条件とした正確なモデルを保持し End-to-End サンプリングを可能にする。
inducing variables q(U^l) を平均 m^l、共分散 S^l を持つガウス分布として表現し、これらを解析的に周辺化することで、完全に結合されたがサンプリング可能な後方分布 over F^l を得る。
三部構成の後方分布構造: (i) p(F^l|U^l; F^{l-1}, Z^{l-1}); (ii) q(U^l) = N(m^l, S^l); (iii) 再パラメータ化トリックを用いた一変量ガウスを用いるサンプル生成（層を通して展開）。
双重確率的 Evidence Lower Bound (ELBO) を導出し、(a) 層間サンプルのための変分後方分布からのモンテカルロサンプリング、(b) 大規模性のためのデータのミニバッチサブサンプリングを用いる。
テスト入力で変分後方分布からサンプルをとって予測を行い、q(f_*^L) をガウス混合として多重サンプルで近似する。

実験結果

リサーチクエスチョン

RQ1DGPs の変分後方分布は層間の依存関係を保ち、層間の独立を仮定することを回避できるか。
RQ2 inducing points を用いて層間相関を維持することは、大規模データ上での DGPs の推論をスケーラブルにできるか。
RQ3多層 DGPs は Regression および Classification のベンチマークで、単層の GP と比較して empirical に改善をもたらすか。特に巨大データセットで。
RQ4提案手法の計算コスト（時間とメモリ）は、既存の DGPs の推論法と比べてどの程度のトレードオフを伴うか。

主な発見

提案された双重確率的変分推論は層間の相関を保持しつつ、非常に大規模なデータにもスケールすることを示し、いくつかのタスクで単一層 GP より改善を達成する。
回帰ベンチマークでは、深い DGPs（2–5 層）が同じまたはより多くの inducing points を用いた場合に sparse GP ベースラインを上回ることが多く、しばしば最良のベースラインの性能を回復または超える。
大規模な回帰および分類データセットで、深い DGPs は浅いモデルより一貫して性能を向上させ、非常に大規模なデータセット（例: taxi、MNIST、HIGGS、SUSY）で顕著な改善を示す。
MNIST では、2層および3層の DGPs がテスト精度を単一層の 97.48% からそれぞれ 98.06%、98.11% に改善した。
この手法により最大5層の DGPs の訓練が可能となり、SGPs に対して大規模タスク（例: taxi の 10 億点）で RMSE が顕著に改善される。
実装はコンパクト（<200 行）で GPflow に統合されており、実用的な適用を促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。