Skip to main content
QUICK REVIEW

[論文レビュー] Stacking for Non-mixing Bayesian Computations: The Curse and Blessing of Multimodal Posteriors

Yuling Yao, Aki Vehtari|arXiv (Cornell University)|Jun 22, 2020
Gaussian Processes and Bayesian Inference参考文献 95被引用数 34
ひとこと要約

本論文は、並列非混合推論(MCMC、変分法、またはモードベース)を組み合わせて多峰後方分布をより適切に表現し、モデル仕様誤りがある場合の予測性能を改善するベイジアン・スタッキングを提案する。

ABSTRACT

When working with multimodal Bayesian posterior distributions, Markov chain Monte Carlo (MCMC) algorithms have difficulty moving between modes, and default variational or mode-based approximate inferences will understate posterior uncertainty. And, even if the most important modes can be found, it is difficult to evaluate their relative weights in the posterior. Here we propose an approach using parallel runs of MCMC, variational, or mode-based inference to hit as many modes or separated regions as possible and then combine these using Bayesian stacking, a scalable method for constructing a weighted average of distributions. The result from stacking efficiently samples from multimodal posterior distribution, minimizes cross validation prediction error, and represents the posterior uncertainty better than variational inference, but it is not necessarily equivalent, even asymptotically, to fully Bayesian inference. We present theoretical consistency with an example where the stacked inference approximates the true data generating process from the misspecified model and a non-mixing sampler, from which the predictive performance is better than full Bayesian inference, hence the multimodality can be considered a blessing rather than a curse under model misspecification. We demonstrate practical implementation in several model families: latent Dirichlet allocation, Gaussian process regression, hierarchical regression, horseshoe variable selection, and neural networks.

研究の動機と目的

  • ベイズ計算における多峰性または準安定な後方分布を伴う推論の難しさを動機づける。
  • 非混合チェーンを組み合わせて予測性能を向上させる、スケーラブルで並列化可能な手法としてスタッキングを提案する。
  • 同じモデルを適合させる複数のチェーンを組み合わせるようにスタッキングを拡張し、実用的な実装の詳細を提供する。
  • 誤指定下でスタッキングが完全なベイズ推論を上回り得ることを示す漸近挙動を分析する。
  • 実践的な有効性を示すため、さまざまなモデルでアプローチを実演する。

提案手法

  • 分散した初期値から複数の並列推論を実行して複数のモードを探索し、チェーン間の混合には依存しない。
  • 各実行を結合すべき別個の密度 p_k(θ|y) としてクラスタリングするか、またはそれとして扱う。
  • Pareto平滑重要サンプリング(PSIS)を用いて各実行について leave-one-out 予測密度 p_k(y_i|y_-i) を推定する。
  • 重み w を求める単体制約付き最適化を解き、重み付き混合の loo ログ予測密度を最大化する。
  • 推定を安定化しチェーン間で部分的に重みをプールするため、重みにディリクレ型正規化を導入する。
  • 最適な重みを重み付きモンテカルロ形に適用して、目標とする多峰後方分布を近似する。
  • 収束の監視を lpd で行うことやチェーンの任意のクラスタリングを含む、実装の実用的手順を提供する。

実験結果

リサーチクエスチョン

  • RQ1非混合の並列推論をスタッキングすることで、いかなる単一チェーンや素朴な平均よりも良い予測性能を得られるか?
  • RQ2複数の非混合チェーンをどのように重み付けして、予測のために多峰後方分布を最も適切に表現するか?
  • RQ3モデルの誤指定下でスタックされた予測が厳密なベイズ後方分布を上回ることは可能か?
  • RQ4チェーンが混ざらない場合、leave-one-out予測密度をどのように効率的に推定できるか?
  • RQ5異なるモデルファミリーや計算設定全体でスタッキングを実装する際の実践的ガイドラインは何か?

主な発見

  • スタッキングは非混合チェーンの重み付き組み合わせを提供し、均一なまたは単一チェーンの推定より予測性能を改善できる。
  • 効率的な重要サンプリングベースのアプローチ(PSIS)により、各チェーンの全データ適合から leave-one-out予測密度を近似できる。
  • スタッキングの重みは交差検証予測精度を最大化し、全体としては多峰のままだが予測にはより適切にキャリブレーションされた後方表現を生む。
  • モデルの誤指定下で、理論的な特定の状況においてスタックされたチェーン推論が予測上は厳密な後方分布を上回ることがある。
  • 潜在ディリクレ配列、ガウス過程回帰、階層回帰、ホースシュー変数選択、ニューラルネットワークなど、複数のモデルファミリーで実証され、実用的適用性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。