[论文解读] Inferring species trees directly from SNP and AFLP data: full coalescent analysis without those pesky gene trees
本文提出了一种多项式时间算法,通过SNAPP实现,直接从SNP和AFLP数据推断物种树,基于多物种谱系分叉模型计算似然值,无需显式估计基因树。该方法利用有限位点突变模型对所有可能的基因树进行高效积分,从而准确推断物种树、分歧时间及种群大小,适用于双等位基因标记。
The multi-species coalescent provides an elegant theoretical framework for estimating species trees and species demographics from genetic markers. Practical applications of the multi-species coalescent model are, however, limited by the need to integrate or sample over all gene trees possible for each genetic marker. Here we describe a polynomial-time algorithm that computes the likelihood of a species tree directly from the markers under a finite-sites model of mutation, effectively integrating over all possible gene trees. The method applies to independent (unlinked) biallelic markers such as well-spaced single nucleotide polymorphisms (SNPs), and we have implemented it in SNAPP, a Markov chain Monte-Carlo sampler for inferring species trees, divergence dates, and population sizes. We report results from simulation experiments and from an analysis of 1997 amplified fragment length polymorphism (AFLP) loci in 69 individuals sampled from six species of {\em Ourisia} (New Zealand native foxglove).
研究动机与目标
- 为克服在多物种谱系分叉模型下对所有可能基因树进行积分时的计算瓶颈。
- 开发一种直接从双等位基因标记(如SNPs和AFLPs)计算物种树似然值的方法。
- 通过马尔可夫链蒙特卡洛采样,实现物种树、分歧时间及种群大小的高效推断。
- 将该方法应用于真实世界数据,包括来自六个Ourisia物种共69个个体的大规模AFLP数据集。
提出的方法
- 该方法使用有限位点突变模型,直接从双等位基因标记计算物种树似然值,无需显式枚举基因树。
- 采用多项式时间算法,对每个标记的所有可能基因树拓扑结构和分支长度进行积分,避免了在基因树上进行马尔可夫链蒙特卡洛采样。
- 该方法在SNAPP中实现,SNAPP是一种贝叶斯MCMC采样器,可联合估计物种树、分歧时间及种群大小。
- 该算法利用了这样一个事实:对于双等位基因标记,可通过对所有可能的基因树配置求和来计算观察到特定标记模式的概率。
- 该方法将突变建模为发生在离散位点上,具有有限状态数,从而可在谱系分叉模型下精确计算位点模式概率。
实验结果
研究问题
- RQ1是否可以不先估计个体基因树,直接从SNP和AFLP数据推断物种树?
- RQ2与基于基因树的方法相比,该方法是否在计算成本更低的前提下实现了更准确的物种树推断?
- RQ3该方法在具有高水平缺失数据和多态性的现实AFLP数据上的表现如何?
- RQ4该方法是否能可靠地同时估计分歧时间与种群大小,以及物种树拓扑结构?
主要发现
- 该方法通过直接计算多物种谱系分叉模型下的似然值,避免了基因树采样,显著降低了计算负担,实现了准确的物种树推断。
- 模拟实验表明,即使在复杂的人口历史情景下,该方法也能以高准确度恢复物种树拓扑结构。
- 对69个个体中1997个AFLP位点的分析产生了支持度良好的物种树,同时估计了分歧时间与种群大小。
- 该方法对缺失数据和AFLP标记典型的高多态性水平表现出强鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。