[論文レビュー] The inference of gene trees with species trees
本稿は、遺伝子複製、欠失、水平遺伝子移動、および不完全な系統選択を考慮することで、遺伝子系統樹と種の系統樹を整合させるモデルをレビューし、これらのモデルを配列進化モデルと統合することで遺伝子系統樹推定の精度が向上することを示している。主な貢献は、ゲノム進化研究および祖先ゲノム再構築において精度を向上させるための連合推定手法の推進である。
Molecular phylogeny has focused mainly on improving models for the reconstruction of gene trees based on sequence alignments. Yet, most phylogeneticists seek to reveal the history of species. Although the histories of genes and species are tightly linked, they are seldom identical, because genes duplicate, are lost or horizontally transferred, and because alleles can co-exist in populations for periods that may span several speciation events. Building models describing the relationship between gene and species trees can thus improve the reconstruction of gene trees when a species tree is known, and vice-versa. Several approaches have been proposed to solve the problem in one direction or the other, but in general neither gene trees nor species trees are known. Only a few studies have attempted to jointly infer gene trees and species trees. In this article we review the various models that have been used to describe the relationship between gene trees and species trees. These models account for gene duplication and loss, transfer or incomplete lineage sorting. Some of them consider several types of events together, but none exists currently that considers the full repertoire of processes that generate gene trees along the species tree. Simulations as well as empirical studies on genomic data show that combining gene tree-species tree models with models of sequence evolution improves gene tree reconstruction. In turn, these better gene trees provide a better basis for studying genome evolution or reconstructing ancestral chromosomes and ancestral gene sequences. We predict that gene tree-species tree methods that can deal with genomic data sets will be instrumental to advancing our understanding of genomic evolution.
研究の動機と目的
- 個々の遺伝子の進化(遺伝子系統樹)と全系統の進化(種の系統樹)の間の乖離を扱う。これは、不完全な系統選択、遺伝子複製、欠失、水平転移などの生物学的プロセスにより、両者がしばしば不一致を示すためである。
- 従来の方法の限界を克服する。これらの方法は系統樹の文脈を無視して遺伝子系統樹を個別に推定しており、偏ったまたは一貫性のない再構築をもたらす。
- 遺伝子家族の進化モデルと配列進化モデルを用いて、遺伝子系統樹と種の系統樹を同時に再構築する連合推定手法の開発を促進する。
- 急速に増加するゲノムデータのスケールに対応するため、スケーラブルで統合的かつ段階的な計算フレームワークの必要性を強調する。
- 系統推定モデルに、遺伝子配列の進化に加え、遺伝子配置の進化やリバースメントを統合することで、より正確な祖先ゲノム再構築を実現する。
提案手法
- DTL(複製-転移-局所)およびDL(複製-欠失)モデルを含む、遺伝子系統樹と種の系統樹を統合する既存のモデルをレビューおよび比較する。
- 遺伝子家族の進化モデルと配列進化モデルを統合することで、遺伝子系統樹推定の精度を向上させる。
- 出生死滅過程と動的計画法を用いて、種の系統樹に沿った遺伝子家族の進化をモデル化し、統合の統計的推定を可能にする。
- 遺伝子配置の変化(例:遺伝子の隣接関係)を表すアドジェセンシーおよびネイバーヒード進化モデルを、遺伝子系統樹-種の系統樹統合に組み込むことを提言する。これにより、大規模なゲノム的変化を捉えることができる。
- 過去の解析から得た情報を再利用することで、大規模ゲノムプロジェクトにおける重複計算を削減する、段階的計算フレームワークの導入を提唱する。
- HMMベースのブレークポイント検出モデルを遺伝子家族の進化モデルに統合し、全ゲノムスケールでの系統推定の不一致を検出する方法を検討する。
実験結果
リサーチクエスチョン
- RQ1種の系統樹が既知である場合、遺伝子系統樹-種の系統樹統合モデルは、遺伝子系統樹推定の精度をどのように向上させ得るか?
- RQ2不完全な系統選択、遺伝子複製、欠失、水平転移といったプロセスが、遺伝子系統樹と種の系統樹の系統的構造の不一致にどの程度寄与しているか?
- RQ3配列進化モデルを遺伝子家族の進化モデルと統合することで、より正確で一貫性のある遺伝子系統樹再構築が可能になるか?
- RQ4特に大規模ゲノムデータセットを扱う際、遺伝子系統樹と種の系統樹を同時に推定する上で直面する計算的および概念的課題は何か?
- RQ5ゲノムリバースメントおよび遺伝子ネイバーヒード進化モデルを遺伝子系統樹-種の系統樹統合に統合することで、祖先ゲノム再構築はどの程度向上するか?
主な発見
- シミュレーションおよび実験的検証から、遺伝子系統樹-種の系統樹モデルと配列進化モデルを統合することで、遺伝子系統樹再構築の精度が顕著に向上することが示された。
- 種の系統樹の制約を反映して推定された遺伝子系統樹は、より一貫性があり、誤差の発生が少なくなる。特に不完全な系統選択の影響を受ける場合、ヒトゲノムの最大30%が種の系統樹と不一致を示す可能性がある。
- 現在のDTLおよびDLモデルは、複数のイベントが頻発するためバイアスを生じる可能性がある。ネイバーヒード進化モデルを統合することで、このバイアスを低減できる。
- 遺伝子配置およびアドジェセンシー進化モデルを統合することで、祖先ゲノム構造(例:祖先染色体、遺伝子ネighborhood)の再構築が可能になった。
- 現在の手法が各新規データセットに対して遺伝子ファミリー、アラインメント、系統樹を再計算するため、再利用可能な計算結果を活用するスケーラブルで段階的なアルゴリズムの開発が強く求められている。
- 今後の手法は、生物学的現実をより正確に反映させるためにモデルの複雑化を進める一方で、大規模ゲノムデータセットへのスケーラビリティを維持する必要があり、これは比較ゲノム学における主要な挑戦である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。