Skip to main content
QUICK REVIEW

[论文解读] Efficient Exploration of the Space of Reconciled Gene Trees

Gergely J. Szöllősi, Wojciech Rosikiewicz|arXiv (Cornell University)|Jun 10, 2013
Genomics and Phylogenetic Studies参考文献 18被引用 27
一句话总结

本文提出了一种名为联合似然估计(Amalgamated Likelihood Estimation, ALE)的概率方法,通过结合来自基因树样本的条件分支概率与考虑基因复制、转移和丢失的分歧模型,高效探索经分歧的基因树。ALE 通过联合建模序列演化与分歧过程,显著提升了基因树的准确性,在真实和模拟数据中将系统发育不一致现象减少了高达 59%。

ABSTRACT

Gene trees record the combination of gene level events, such as duplication, transfer and loss, and species level events, such as speciation and extinction. Gene tree-species tree reconciliation methods model these processes by drawing gene trees into the species tree using a series of gene and species level events. The reconstruction of gene trees based on sequence alone almost always involves choosing between statistically equivalent or weakly distinguishable relationships that could be much better resolved based on a putative species tree. To exploit this potential for accurate reconstruction of gene trees the space of reconciled gene trees must be explored according to a joint model of sequence evolution and gene tree-species tree reconciliation. Here we present amalgamated likelihood estimation (ALE), a probabilistic approach to exhaustively explore all reconciled gene trees that can be amalgamated as a combination of clades observed in a sample of trees. We implement ALE in the context of a reconciliation model, which allows for the duplication, transfer and loss of genes. We use ALE to efficiently approximate the sum of the joint likelihood over amalgamations and to find the reconciled gene tree that maximizes the joint likelihood. We demonstrate using simulations that gene trees reconstructed using the joint likelihood are substantially more accurate than those reconstructed using sequence alone. Using realistic topologies, branch lengths and alignment sizes, we demonstrate that ALE produces more accurate gene trees even if the model of sequence evolution is greatly simplified. Finally, examining 1099 gene families from 36 cyanobacterial genomes we find that joint likelihood-based inference results in a striking reduction in apparent phylogenetic discord, with 24%, 59% and 46% percent reductions in the mean numbers of duplications, transfers and losses.

研究动机与目标

  • 解决仅依赖序列数据进行基因树重建时因系统发育信号不足而导致的准确性低下的问题。
  • 通过联合建模基因树与物种树的演化过程,解决基因树与物种树推断之间的循环依赖问题。
  • 开发一种高效探索经分歧基因树空间的方法,利用多份基因树中的分支合并信息。
  • 减少由基因树重建不确定性引起的表观系统发育不一致现象。

提出的方法

  • ALE 使用基因树样本中的条件分支概率(Conditional Clade Probabilities, CCPs)来近似基因树拓扑的后验概率。
  • 它将动态规划方法扩展至高效计算所有可由观测分支合并而成的经分歧基因树的联合似然。
  • 该方法整合了概率分歧模型,可处理复制、转移和丢失事件,并采用递归方案对分歧事件进行建模。
  • 它近似计算所有可能合并基因树的联合似然之和,从而实现在联合模型下的最大似然推断。
  • 该方法假设分支之间条件独立以提升计算效率,其合理性基于最大熵原理并经实证验证。
  • 它利用一个推测的物种树作为骨架,通过共享的演化历史引导基因树重建,从而提升准确性。

实验结果

研究问题

  • RQ1与仅使用序列数据的方法相比,联合使用序列数据与物种树进行基因树推断,是否能显著提升基因树的准确性?
  • RQ2在多大程度上,引入物种树可以减少推断出的进化事件数量,如复制、转移和丢失?
  • RQ3ALE 基于基因树 MCMC 样本的重建准确性在多大程度上取决于样本的完整性和多样性?
  • RQ4条件分支概率中的独立性假设是否会导致基因树推断产生显著偏差?该假设在理论上是否可被合理化?
  • RQ5即使序列演化模型被简化,ALE 的联合似然估计是否仍能减少跨基因家族的系统发育不一致现象?

主要发现

  • 使用 ALE 重建的基因树在准确性上显著优于仅使用序列数据的方法,在模拟实验中,共识树准确率分别达到 92.4% 和 83.6%(支持度 >0.95)。
  • 在 1099 个蓝细菌基因家族中,ALE 分别将每基因家族的平均复制、转移和丢失事件数减少了 24%、59% 和 46%。
  • 在数据集 II 中,每家族的转移事件数从 8.7 例降至 3.6 例,表明系统发育不一致现象得到显著减少。
  • 单拷贝通用基因家族的物种树与基因树之间的 Robinson-Foulds 距离从 25.8 降至 11.4,反映出不一致程度降低约两倍。
  • 重建误差与缺失分支比例高度相关(皮尔逊相关系数 r = 0.71,p < 10−5),表明更大的 MCMC 样本可能进一步提升准确性。
  • 尽管使用了简化的序列演化模型,ALE 重建的树仍优于基于正确序列模型的树,表明分歧建模中仍存在巨大潜力未被挖掘。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。