Skip to main content
QUICK REVIEW

[論文レビュー] Marginal Likelihoods from Monte Carlo Markov Chains

Alan Heavens, Y. Fantaye|arXiv (Cornell University)|Apr 11, 2017
Insurance, Mortality, Demography, Risk Management参考文献 1被引用数 29
ひとこと要約

本稿では、MCMCサンプルから周辺尤度(ベイズ的証拠)を推定するために、マハラノビス距離を用いたk番目の近傍距離に基づくベイズ的最近傍法を提案する。20次元において約10⁵個のサンプルで、約2倍の精度を達成し、k=1が最適であることが示され、事前白色化(prewhitening)が性能を向上させることを示している。これにより、高次元パrameter空間における頑健なモデル比較が可能になる。

ABSTRACT

In this paper, we present a method for computing the marginal likelihood, also known as the model likelihood or Bayesian evidence, from Markov Chain Monte Carlo (MCMC), or other sampled posterior distributions. In order to do this, one needs to be able to estimate the density of points in parameter space, and this can be challenging in high numbers of dimensions. Here we present a Bayesian analysis, where we obtain the posterior for the marginal likelihood, using $k$th nearest-neighbour distances in parameter space, using the Mahalanobis distance metric, under the assumption that the points in the chain (thinned if required) are independent. We generalise the algorithm to apply to importance-sampled chains, where each point is assigned a weight. We illustrate this with an idealised posterior of known form with an analytic marginal likelihood, and show that for chains of length $\sim 10^5$ points, the technique is effective for parameter spaces with up to $\sim 20$ dimensions. We also argue that $k=1$ is the optimal choice, and discuss failure modes for the algorithm. In a companion paper (Heavens et al. 2017) we apply the technique to the main MCMC chains from the 2015 Planck analysis of cosmic background radiation data, to infer that quantitatively the simplest 6-parameter flat $Λ$CDM standard model of cosmology is preferred over all extensions considered.

研究の動機と目的

  • MCMCサンプルから周辺尤度を計算する手法を開発すること。これはベイズ的モデル比較に不可欠である。
  • 次元の呪いにより標準的な密度推定が困難となる高次元密度推定の課題に対処すること。
  • 非i.i.d.事後分布サンプルにも適用可能なように、手法を重要度サンプリングされたチェインへ一般化すること。
  • 特に高次元パrameter空間において、手法の性能と頑健性をさまざまな次元とサンプルサイズで評価すること。
  • 精度と分散を低下させる最適なk値および変換戦略(例:事前白色化)を同定すること。

提案手法

  • パラメータ空間におけるk番目の最近傍距離を用いて、MCMCサンプルの局所的密度を推定する。密度が近傍が張る体積の逆数に比例することを利用している。
  • 高次元パrameter空間における相関とスケールを考慮するため、マハラノビス距離を用いることで、ユークリッド距離よりも精度を向上させる。
  • すべてのMCMC点からの尤度をベイズ的枠組みで組み合わせ、周辺尤度に関する事後分布を形成する。
  • 重みを最近傍密度推定に組み込むことで、重要度サンプリングされたチェインへ手法を一般化する。
  • チェインの共分散行列を用いてパラメータを相関のない単位分散成分に変換することで、チェインを事前白色化する。これにより、変換空間ではユークリッド距離を用いることができる。
  • 変換のヤコビアンを正しく計算することで、事前白色化空間における周辺尤度を正確に算出する。

実験結果

リサーチクエスチョン

  • RQ1標準的なMCMCチェインから最近傍密度推定を用いて、周辺尤度を正確に推定できるか?
  • RQ2最近傍数kの選択が、周辺尤度推定の精度と分散にどのように影響するか?
  • RQ3マハラノビス距離を用いるか、チェインを事前白色化することで、高次元パrameter空間において顕著に性能が向上するか?
  • RQ4この手法の失敗モードは何か。どのような条件下で機能しなくなるか?
  • RQ5この手法は重要度サンプリングされたチェインへ一般化可能か。非i.i.d.サンプリング下でも性能はいかがなっているか?

主な発見

  • チェイン長が約10⁵の20次元パラメータ空間において、約2倍の精度を達成しており、誤差は2倍以内に保たれている。
  • k=1が最適であることが判明した。kが高くなるとバイアスが増加し、精度が低下するが、分散は低下する。
  • マハラノビス距離を用いるか、チェインを事前白色化することで、特に高次元において、単純なユークリッド距離よりも顕著に性能が向上する。
  • ターゲット分布が通常の最近傍距離の範囲で定数で近似できない場合に、手法は失敗する。特に(αₘN/V)^(-1/m) > 0.5 である場合に顕著である。
  • 事前白色化によりノイズが低減され、精度が向上する。k=1はk=4よりも精度が高く、ノイズは大きいが、それでもより優れている。
  • アルゴリズムは独立なサンプルを仮定しているため、自己相関がある場合にはチェインの間引き(thinning)を推奨する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。