Skip to main content
QUICK REVIEW

[論文レビュー] Efficient Exploration of the Space of Reconciled Gene Trees

Gergely J. Szöllősi, Wojciech Rosikiewicz|arXiv (Cornell University)|Jun 10, 2013
Genomics and Phylogenetic Studies参考文献 18被引用数 27
ひとこと要約

本稿では、遺伝子の複製、移動、喪失を考慮する再適合モデルと、遺伝子系統樹のサンプルからの条件付きクレード確率を組み合わせることで、再適合された遺伝子系統樹を効率的に探索する確率的手法であるAmalgamated Likelihood Estimation (ALE)を紹介する。ALEは、系統樹の進化と再適合を同時にモデル化することで、実データおよびシミュレーションデータにおいて系統樹の不一致を最大59%まで低減し、遺伝子系統樹の精度を著しく向上させる。

ABSTRACT

Gene trees record the combination of gene level events, such as duplication, transfer and loss, and species level events, such as speciation and extinction. Gene tree-species tree reconciliation methods model these processes by drawing gene trees into the species tree using a series of gene and species level events. The reconstruction of gene trees based on sequence alone almost always involves choosing between statistically equivalent or weakly distinguishable relationships that could be much better resolved based on a putative species tree. To exploit this potential for accurate reconstruction of gene trees the space of reconciled gene trees must be explored according to a joint model of sequence evolution and gene tree-species tree reconciliation. Here we present amalgamated likelihood estimation (ALE), a probabilistic approach to exhaustively explore all reconciled gene trees that can be amalgamated as a combination of clades observed in a sample of trees. We implement ALE in the context of a reconciliation model, which allows for the duplication, transfer and loss of genes. We use ALE to efficiently approximate the sum of the joint likelihood over amalgamations and to find the reconciled gene tree that maximizes the joint likelihood. We demonstrate using simulations that gene trees reconstructed using the joint likelihood are substantially more accurate than those reconstructed using sequence alone. Using realistic topologies, branch lengths and alignment sizes, we demonstrate that ALE produces more accurate gene trees even if the model of sequence evolution is greatly simplified. Finally, examining 1099 gene families from 36 cyanobacterial genomes we find that joint likelihood-based inference results in a striking reduction in apparent phylogenetic discord, with 24%, 59% and 46% percent reductions in the mean numbers of duplications, transfers and losses.

研究の動機と目的

  • 十分な系統的信号が得られないために、シーケンスのみの遺伝子系統樹の再構築精度が低いという課題に対処すること。
  • 遺伝子系統樹と種の系統樹の推定の間の循環的依存関係を、遺伝子と種の系統樹の進化を同時にモデル化することで解消すること。
  • 複数の遺伝子系統樹からのクレードの統合を活用して、再適合された遺伝子系統樹の空間を効率的に探索する手法を開発すること。
  • 遺伝子系統樹の再構築における不確実性によって引き起こされる一時的な系統的不一致を低減すること。

提案手法

  • ALEは、遺伝子系統樹のサンプルからの条件付きクレード確率(CCP)を用いて、遺伝子系統樹の系統的構造の事後確率を近似する。
  • 動的計画法を拡張して、観察されたクレードから統合可能なすべての再適合された遺伝子系統樹の同時尤度を効率的に計算する。
  • 複製、移動、喪失を考慮する確率的再適合モデルを統合し、再適合イベントの再帰的スキームを用いて処理する。
  • すべての可能な統合された遺伝子系統樹における同時尤度の和を近似することで、統合モデル下での最尤推定を可能にする。
  • 計算効率を高めるために、クレードの条件付き独立性を仮定するが、最大エントロピー原理と実証的検証によってその妥当性を裏付ける。
  • 共有される進化的歴史を通じて精度を向上させるために、仮定された種の系統樹をスケルトンとして用いる。

実験結果

リサーチクエスチョン

  • RQ1シーケンスデータと種の系統樹との再適合を同時に用いた遺伝子系統樹の推定は、シーケンスのみの手法と比較して、遺伝子系統樹の精度を顕著に向上させるか?
  • RQ2種の系統樹を組み込むことで、複製、移動、喪失といった推定された進化的イベントの数はどの程度減少するか?
  • RQ3ALEを用いた遺伝子系統樹の再構築の精度は、MCMCによる遺伝子系統樹サンプルの完全性と多様性にどの程度依存するか?
  • RQ4条件付きクレード確率における独立性仮定が遺伝子系統樹の推定に顕著なバイアスをもたらすか、理論的に正当化できるか?
  • RQ5シーケンス進化モデルを簡略化しても、ALEによる同時尤度推定は、遺伝子ファミリー全体で系統的不一致を低減できるか?

主な発見

  • シミュレーションにおいて、ALEを用いて再構築された遺伝子系統樹は、シーケンスのみの手法と比較して顕著に高い精度を示し、一致率92.4%(支持度>0.95)を達成したのに対し、シーケンスのみの手法では83.6%であった。
  • 1099個の藍細菌遺伝子ファミリーにおいて、ALEは平均して複製、移動、喪失の数をそれぞれ24%、59%、46%削減した。
  • データセットIIでは、移動イベントの数が1ファミリーあたり8.7から3.6に減少し、系統的不一致が顕著に低減された。
  • 単一コピーの普遍的ファミリーにおいて、種の系統樹と遺伝子系統樹のロビンソン=フォールズ距離は25.8から11.4に低下し、不一致が2倍減少した。
  • 再構築誤差は欠落した二分岐の割合と強く相関しており(ピアソンの積動標本相関係数 r = 0.71、p < 10−5)、より大きなMCMCサンプルにより精度がさらに向上する可能性がある。
  • 簡略化されたシーケンスモデルを使用しても、ALEに基づく系統樹は正確なシーケンスモデルに基づく系統樹を上回る性能を示しており、再適合モデリングにおける潜在的な余力が示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。