QUICK REVIEW

[論文レビュー] MultiBUGS: Massively parallel MCMC for Bayesian hierarchical models

Robert J. B. Goudie, Rebecca Turner|arXiv (Cornell University)|Apr 11, 2017

Statistical Methods and Bayesian Inference参考文献 32被引用数 5

ひとこと要約

MultiBUGS は、2 つの戦略である積型尤度の並列評価と条件付き独立パラメータの並列サンプリングを用いて、マルチコアシステム全体で MCMC 推論を自動的に並列化することにより、ベイジアン階層モデルの推論を高速化する。48 核のシステム上で、425,112 件の観察値と 20,426 個のランダム効果を含む大規模な e ヘルスモデルでは、事後分布推定の所要時間を数時間から 28 分に短縮した。

ABSTRACT

MultiBUGS (this https URL) is a new version of the general-purpose Bayesian modelling software BUGS that implements a generic algorithm for parallelising Markov chain Monte Carlo (MCMC) algorithms to speed up posterior inference of Bayesian models. The algorithm parallelises evaluation of the product-form likelihoods formed when a parameter has many children in the directed acyclic graph (DAG) representation; and parallelises sampling of conditionally-independent sets of parameters. A heuristic algorithm is used to decide which approach to use for each parameter and to apportion computation across computational cores. This enables MultiBUGS to automatically parallelise the broad range of statistical models that can be fitted using BUGS-language software, making the dramatic speed-ups of modern multi-core computing accessible to applied statisticians, without requiring any experience of parallel programming. We demonstrate the use of MultiBUGS on simulated data designed to mimic a hierarchical e-health linked-data study of methadone prescriptions including 425,112 observations and 20,426 random effects. Posterior inference for the e-health model takes several hours in existing software, but MultiBUGS can perform inference in only 28 minutes using 48 computational cores.

研究の動機と目的

応用統計学者が並列コードを書かずにマルチコアコンピューティングをベイジアン階層モデルに活用できるようにすること。
複雑な依存構造を有する大規模ベイジアンモデルにおける MCMC 推論の性能ボトルネックを解消すること。
BUGS 言語および DAG に基づくモデリングと互換性のある汎用的で自動的な並列化戦略を開発すること。
数百万件の観察値と数千のランダム効果を含む実世界の高次元 e ヘルスデータにおいて顕著な高速化を示すこと。

提案手法

MultiBUGS は、2 つの並列化戦略のうち動的に最適な方を選択するヒューリスティックアルゴリズムを用いる：積型尤度の並列評価と条件付き独立パラメータ集合の並列サンプリング。
DAG 内で多くの子を持ち、積型尤度を有するパラメータを特定し、コア間でベクトル化された計算を可能にする。
DAG 内で条件付き独立なパラメータブロックを検出し、それらを別々の処理ユニットに割り当てて同時にサンプリングする。
ヒューリスティックは、計算コストとデータ構造に基づいて、各パラメータごとに最適な並列化戦略を選択し、負荷をバランスさせる。
このアプローチはユーザーに対して完全に透明であり、BUGS 言語によるモデル仕様の変更が不要である。
実装は既存の BUGS インfraストラクチャの上に構築されており、標準的なベイジアンモデリングワークフローとの後方互換性を保証している。

実験結果

リサーチクエスチョン

RQ1MCMC アルゴリズムの自動的かつ透明な並列化は、大規模なベイジアン階層モデルにおける計算時間を顕著に短縮できるか？
RQ2実世界の高次元データにおける推論の高速化において、尤度の並列化とパラメータブロックサンプリングの組み合わせはどの程度効果的か？
RQ3ユーザーによる並列プログラミングを一切不要としつつ、MultiBUGS はマルチコアアーキテクチャ全体で性能をどの程度スケーリングできるか？
RQ4複雑な DAG において、ヒューリスティックアルゴリズムは各パラメータに対して最適な並列化戦略を信頼性高く選択できるか？
RQ5数万のランダム効果と数十万件の観察値を含む大規模 e ヘルスデータにおいて、どの程度の性能向上が達成可能か？

主な発見

MultiBUGS は、48 個の計算コアを用いて、大規模な e ヘルスモデルの事後分布推定時間を数時間からわずか 28 分に短縮した。
このモデルには 425,112 件の観察値と 20,426 個のランダム効果が含まれており、高次元データへのスケーラビリティを実証した。
モデル仕様の変更やユーザーによる並列コーディングの一切なしに、この高速化が達成された。
ヒューリスティックアルゴリズムは最適な並列化戦略を効果的に選択し、性能の低下を回避した。
自動並列化が現代のマルチコアハードウェアの潜在能力を活用できることを確認した。
MultiBUGS は、かつては合理的な時間内に実行不可能であった複雑なモデルに対しても効率的な推論を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。