QUICK REVIEW

[論文レビュー] On Markov chain Monte Carlo methods for tall data

Rémi Bardenet, Randal Douc|arXiv (Cornell University)|May 11, 2015

Markov Chains and Monte Carlo Methods参考文献 48被引用数 133

ひとこと要約

この論文は、高密度データに対して標準的なO(n)の複雑さよりも少ないデータポイントの尤度評価回数を達成する、新しいサブサンプリングに基づくマルコフ連鎖モンテカルロ（MCMC）手法を提案する。対数尤度のテイラー展開に基づく代理関数を用いることで、有利な状況ではO(1)の評価回数を達成する。この手法は真の後方分布に理論的に近い分布からサンプリングすることができ、ベルンシュタイン＝フォン・ミーゼス近似が成り立つ場合には顕著な計算上の利点をもたらす。

ABSTRACT

Markov chain Monte Carlo methods are often deemed too computationally intensive to be of any practical use for big data applications, and in particular for inference on datasets containing a large number $n$ of individual data points, also known as tall datasets. In scenarios where data are assumed independent, various approaches to scale up the Metropolis-Hastings algorithm in a Bayesian inference context have been recently proposed in machine learning and computational statistics. These approaches can be grouped into two categories: divide-and-conquer approaches and, subsampling-based algorithms. The aims of this article are as follows. First, we present a comprehensive review of the existing literature, commenting on the underlying assumptions and theoretical guarantees of each method. Second, by leveraging our understanding of these limitations, we propose an original subsampling-based approach which samples from a distribution provably close to the posterior distribution of interest, yet can require less than $O(n)$ data point likelihood evaluations at each iteration for certain statistical models in favourable scenarios. Finally, we have only been able so far to propose subsampling-based methods which display good performance in scenarios where the Bernstein-von Mises approximation of the target posterior distribution is excellent. It remains an open challenge to develop such methods in scenarios where the Bernstein-von Mises approximation is poor.

研究の動機と目的

nが非常に大きい高密度データに対して、標準的なMCMC手法が計算的に非現実的であることを解決する。各反復における全データの尤度評価が非常に高コストであるため。
理論的保証を保持しつつ、反復ごとの尤度評価回数を著しく削減するサブサンプリングに基づくMCMCアプローチを開発する。
既存の信頼区間サンプラーを改善し、対数尤度の代理モデルを導入することで、有利な状況下で非線形な複雑さを達成する。
サブサンプリングに基づくMCMCがO(1)の尤度評価回数を各反復で達成できる条件を特定する。特にベルンシュタイン＝フォン・ミーゼス近似が正確である場合を対象とする。

提案手法

補助変数と重要度サンプリングを用いて、対数尤度比の不偏推定量を構築する信頼区間サンプラーを導入する。
対数尤度の近似にテイラー展開に基づく代理関数を用い、誤差を制御可能な形で全データの対数尤度を近似する。
信頼区間に基づく停止ルールを用いて、各MCMC反復でサブサンプルするデータポイントの数を決定し、精度と効率のバランスを取る。
尤度比の不偏推定量に基づく受容確率を用いる疑似周辺度メトロポリス・ハスティングスフレームワークを適用し、真の後方分布を正確にターゲットにする。
ベルンシュタイン＝フォン・ミーゼス近似を活用し、モードの周辺で対数尤度の局所的二次近似（代理関数）の使用を正当化する。
RheeとGlynn（2013）のインスパイアを受けて、増加するサブサンプルの系列を用いた尤度比の不偏推定量の再帰的構築を採用する。

実験結果

リサーチクエスチョン

RQ1サブサンプリングに基づくMCMC手法は、高密度データ環境下で、後方分布の正確さを保ちながら反復ごとにO(1)の尤度評価回数を達成できるか？
RQ2対数尤度の代理近似が、理論的保証付きで信頼できるMCMCサンプリングを可能にする条件は何か？
RQ3尤度比の不偏推定量を効率的に構築することで、非線形なデータアクセスで正確な後方分布サンプリングを実現できるか？
RQ4ベルンシュタイン＝フォン・ミーゼス近似は、サブサンプリングMCMC手法の性能とスケーラビリティにどのような影響を及ぼすか？
RQ5信頼区間サンプラー枠組みを改善することで、後方分布の正確さを損なわずに計算コストを削減できるか？

主な発見

ベルンシュタイン＝フォン・ミーゼス近似が極めて良好な有利な状況下では、提案手法が反復ごとにO(1)の尤度評価回数を達成し、標準的なO(n)の壁を破る。
テイラー展開に基づく代理関数の使用により、誤差の境界が明確に定義された対数尤度の正確な近似が可能となり、信頼できるサブサンプリングが可能になる。
改良された信頼区間サンプラーは、特にcovtypeデータセットにおけるロジスティック回帰およびガンマ回帰の実験で、ベースライン手法に比べ顕著な計算上の利点を示す。
covtypeデータセットにおける実験結果から、データアクセス回数を削減しながらも、良好な混合性と収束性を維持していることが示された。
この手法は理論的に妥当である：近似誤差が代理関数の品質によって制御されるため、真の後方分布に近い分布からサンプリングしている。
この手法はベルンシュタイン＝フォン・ミーゼス近似が正確である設定に限定されるため、より広範な適用性を求める上で重要な未解決課題が残っている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。