[论文解读] Horseshoe‐based Bayesian nonparametric estimation of effective population size trajectories
该论文提出了一种新颖的贝叶斯非参数方法HSMRF,用于利用遗传数据估计有效种群大小轨迹。通过使用霍尔斯马尔可夫随机场先验对种群大小的对数变换进行建模,该方法实现了对突变变化和不同平滑度的局部自适应性——在模拟和真实数据中均优于高斯过程和改变点模型,表现出更低的偏差和更高的精度。
Phylodynamics is an area of population genetics that uses genetic sequence data to estimate past population dynamics. Modern state-of-the-art Bayesian nonparametric methods for recovering population size trajectories of unknown form use either change-point models or Gaussian process priors. Change-point models suffer from computational issues when the number of change-points is unknown and needs to be estimated. Gaussian process-based methods lack local adaptivity and cannot accurately recover trajectories that exhibit features such as abrupt changes in trend or varying levels of smoothness. We propose a novel, locally-adaptive approach to Bayesian nonparametric phylodynamic inference that has the flexibility to accommodate a large class of functional behaviors. Local adaptivity results from modeling the log-transformed effective population size a priori as a horseshoe Markov random field, a recently proposed statistical model that blends together the best properties of the change-point and Gaussian process modeling paradigms. We use simulated data to assess model performance, and find that our proposed method results in reduced bias and increased precision when compared to contemporary methods. We also use our models to reconstruct past changes in genetic diversity of human hepatitis C virus in Egypt and to estimate population size changes of ancient and modern steppe bison. These analyses show that our new method captures features of the population size trajectories that were missed by the state-of-the-art methods.
研究动机与目标
- 为解决现有贝叶斯非参数方法在系统发育动力学推断中的局限性,特别是其在准确恢复具有突变变化或不同平滑度的轨迹方面的能力不足。
- 开发一种结合改变点模型(局部自适应性)和高斯过程先验(平滑性)优势的方法,同时避免其计算和建模上的缺点。
- 提供一个完全的贝叶斯框架,实现基因系谱和种群大小轨迹的联合估计,提升准确性和不确定性量化能力。
提出的方法
- 该方法将对数变换后的有效种群大小建模为霍尔斯马尔可夫随机场(HSMRF),这是一种基于收缩的先验,通过允许部分系数精确为零而其他系数自由估计,实现局部自适应性。
- HSMRF先验被应用于共祖先事件的离散时间网格上,实现种群大小轨迹的非参数估计,而无需预先指定节点位置或改变点数量。
- 该方法采用具有条件自回归(CAR)结构的层次贝叶斯模型,以在HSMRF中实现空间依赖性,从而支持灵活的平滑和收缩。
- 通过马尔可夫链蒙特卡洛(MCMC)抽样进行后验推断,所有参数(包括种群大小轨迹和超参数)的完整条件分布均已推导。
- 该方法已通过名为spmrf的R包实现,可在GitHub上获取,支持固定和推断的基因系谱。
- 引入了二阶HSMRF和高斯马尔可夫随机场(GMRF)模型,前者提供更平滑的轨迹,并在具有复杂动态的模拟数据中表现更优。
实验结果
研究问题
- RQ1贝叶斯非参数方法能否在估计具有突变变化或不同平滑度的种群大小轨迹方面,优于现有方法,实现更高的准确性和自适应性?
- RQ2与高斯过程和改变点模型相比,HSMRF先验在偏差、精度以及恢复复杂人口历史特征方面表现如何?
- RQ3与一阶模型相比,二阶HSMRF模型在捕捉不同平滑度水平的人口动态方面表现如何?
- RQ4HSMRF方法是否能比最先进的替代方法更好地恢复具有生物学意义的人口事件(如种群瓶颈或扩张)?
- RQ5当应用于现实世界的病毒和古DNA数据集时,HSMRF方法是否保持鲁棒性和计算可行性?
主要发现
- 在模拟中,HSMRF方法在恢复具有突变变化的轨迹时,偏差更低、精度更高,优于高斯马尔可夫随机场(GMRF)和基于改变点的谱系模型。
- HSMRF-1模型生成的轨迹更为复杂,且与已知人口历史事件(如冰川消退和人类抵达白令大陆)的匹配度优于其他模型。
- 在埃及丙型肝炎病毒数据中,HSMRF模型比GMRF和谱系模型更细致地捕捉了遗传多样性下降的动态,表明其在检测细微种群动态方面具有优势。
- 在草原野牛数据中,HSMRF-1模型估计的种群峰值大小在41.6至47.3 kya之间,其后验模型概率高于GMRF-1模型,表明其对数据的拟合更优。
- 在模拟和真实数据示例中,二阶HSMRF模型均优于一阶模型,且表现出更高的后验模型概率,表明其在处理平滑轨迹方面具有优势。
- HSMRF方法成功捕捉了最先进的方法所遗漏的特征,包括快速下降和局部波动,证明其在建模非平稳和异质性人口模式方面的优越性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。