Skip to main content
QUICK REVIEW

[論文レビュー] Horseshoe‐based Bayesian nonparametric estimation of effective population size trajectories

James R. Faulkner, Andrew F. Magee|arXiv (Cornell University)|Aug 13, 2018
Genetic and phenotypic traits in livestock参考文献 63被引用数 27
ひとこと要約

本稿では、遺伝的データを用いた有効集団サイズの推移を推定するための新しいベイジアン非パラメトリック手法、HSMRFを提案する。対数変換された集団サイズを馬蹄型マルコフ確率場事前分布でモデル化することにより、急激な変化や変動する滑らかさに対しても局所的な適応性を達成する。シミュレーションおよび実データにおいて、ガウス過程モデルや変化点モデルを上回る性能を示し、バイアスが低く、精度が高くなる。

ABSTRACT

Phylodynamics is an area of population genetics that uses genetic sequence data to estimate past population dynamics. Modern state-of-the-art Bayesian nonparametric methods for recovering population size trajectories of unknown form use either change-point models or Gaussian process priors. Change-point models suffer from computational issues when the number of change-points is unknown and needs to be estimated. Gaussian process-based methods lack local adaptivity and cannot accurately recover trajectories that exhibit features such as abrupt changes in trend or varying levels of smoothness. We propose a novel, locally-adaptive approach to Bayesian nonparametric phylodynamic inference that has the flexibility to accommodate a large class of functional behaviors. Local adaptivity results from modeling the log-transformed effective population size a priori as a horseshoe Markov random field, a recently proposed statistical model that blends together the best properties of the change-point and Gaussian process modeling paradigms. We use simulated data to assess model performance, and find that our proposed method results in reduced bias and increased precision when compared to contemporary methods. We also use our models to reconstruct past changes in genetic diversity of human hepatitis C virus in Egypt and to estimate population size changes of ancient and modern steppe bison. These analyses show that our new method captures features of the population size trajectories that were missed by the state-of-the-art methods.

研究の動機と目的

  • 系統発生的推定における既存のベイジアン非パラメトリック手法の限界、特に急激な変化や変動する滑らかさを示す推移を正確に回復できないことに対処すること。
  • 変化点モデルの特長(局所的適応性)とガウス過程事前分布の特長(滑らかさ)を統合しつつ、それらの計算的・モデル化上の欠点を回避する手法を開発すること。
  • 系統樹と集団サイズ推移を同時に推定できる完全なベイジアン枠組みを提供し、精度と不確実性の定量化を向上させること。

提案手法

  • 本手法は、有効集団サイズの対数変換値を、局所的適応性を可能にするスパarsityに基づく事前分布としての馬蹄型マルコフ確率場(HSMRF)でモデル化する。これにより、一部の係数が正確にゼロとなる一方で、他の係数は自由に推定可能となる。
  • HSMRF事前分布は、共通のコalescenceイベントの離散的時間グリッドに適用され、ノード位置や変化点数を事前に指定しない非パラメトリックな集団サイズ推移の推定を可能にする。
  • 空間的依存性を表現するための階層ベイジアンモデルを用い、HSMRFに条件付き自己回帰(CAR)構造を導入することで、柔軟なスムージングと縮小を実現する。
  • 事後分布推論は、マルコフ連鎖モンテカルロ(MCMC)サンプリングを用いて実施され、集団サイズ推移およびハイパーパrameterを含むすべてのパラメータの条件付き分布が導出される。
  • 本手法は、GitHubで公開されているRパッケージ「spmrf」を介して実装されており、固定されたおよび推定された系統樹の両方をサポートする。
  • 2次HSMRFおよびGMRFモデルが導入され、前者は滑らかさを向上させ、複雑なダイナミクスを示すシミュレーションデータにおいて優れた性能を発揮する。

実験結果

リサーチクエスチョン

  • RQ1ベイジアン非パラメトリック手法として、急激な変化や変動する滑らかさを示す推移を推定する際、既存手法よりも高い精度と適応性を達成できるか。
  • RQ2HSMRF事前分布は、ガウス過程モデルや変化点モデルと比較して、バイアス、精度、および複雑な人口動態的特徴の回復能力においてどのように差を示すか。
  • RQ32次HSMRFモデルは、異なる滑らかさレベルの人口動態を捉える際、1次モデルと比較してどのように性能を発揮するか。
  • RQ4HSMRF手法は、集団のボトルネックや拡大といった生物学的に意味のある人口動態的出来事(例:氷河期の後退、ビンガリアへの人類の到着)を、最先端の代替手法よりもよく回復できるか。
  • RQ5HSMRF手法は、実世界のウイルスおよび古代DNAデータセットに適用された場合でも、頑健性と計算上の実行可能性を維持できるか。

主な発見

  • シミュレーションにおいて、HSMRF手法は、ガウスマルコフ確率場(GMRF)および変化点ベースのスカイラインモデルよりも低いバイアスと高い精度を示した。特に、急激な変化を示す推移の回復において顕著であった。
  • HSMRF-1モデルは、氷河期の後退やビンガリアへの人類の到着といった既知の人口動態的出来事とよりよく一致する、より複雑で洗練された推移を生成した。
  • エジプトにおけるC型肝炎ウイルスのデータでは、HSMRFモデルがGMRFおよびスカイラインモデルよりも、遺伝的多様性のより繊細な低下を捉えており、微細な人口動態の検出能力が向上していることを示唆している。
  • ステップ・ビソンのデータでは、HSMRF-1モデルが41.6〜47.3 kyaの間にピーク集団サイズを推定し、GMRF-1モデルよりも高い事後モデル尤度を示しており、データへの適合度が優れていることを示している。
  • 2次HSMRFモデルは、シミュレーションおよび実データ例において1次モデルを上回る性能を示し、より高い事後モデル尤度を示しており、滑らかな推移の推定に有効であることが示された。
  • HSMRF手法は、最先端の手法が見逃した特徴(急激な減少や局所的なフラクチュエーション)を効果的に捉えており、非定常的かつ不均一な人口動態パターンのモデリングにおける優位性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。