Skip to main content
QUICK REVIEW

[論文レビュー] How much can evolved characters tell us about the tree that generated them?

Elchanan Mossel, Mike Steel|arXiv (Cornell University)|Jun 24, 2004
Genomics and Phylogenetic Studies被引用数 26
ひとこと要約

本稿は、マルコフ過程下での進化的特性からの系統樹再構築の限界を調査し、系統的状態再構築が情報理論的限界によって制限されることを示し、系統樹の正確性が置換率と系統樹のサイズに大きく依存することを明らかにした。置換確率が臨界閾値を超えると再構築正確性に段階的転移が生じることを示し、遺伝子配列などのゲノムデータに適した大規模または無限大の状態空間へも結果を拡張した。

ABSTRACT

In this paper we review some recent results that shed light on a fundamental question in molecular systematics: how much phylogenetic `signal' can we expect from characters that have evolved under some Markov process? There are many sides to this question and we begin by describing some explicit bounds on the probability of correctly reconstructing an ancestral state from the states observed at the tips. We show how this bound sets upper limits on the probability of tree reconstruction from aligned sequences, and we provide some new extensions that allow site-to-site rate variation or a covarion mechanism. We then explore the relationship between the number of sites required for accurate tree reconstruction and other model parameters - such as the number of species, and substitution probabilities, and we describe a phase transition that occurs when substitution probabilities exceed a critical value. In the remainder of this paper we turn to models of character evolution where the state space is assumed to be either infinite or very large. These models have some relevance to certain types of genomic data (such as gene order) and here we again investigate how many characters are required for accurate tree reconstruction.

研究の動機と目的

  • マルコフ過程下での進化的特性からの系統的状態および系統樹トポロジー再構築の根本的限界を特定すること。
  • 置換率と系統樹サイズが正確な系統樹再構築に必要な特性数に与える影響を分析すること。
  • サイト間の置換率変動およびコバリオン機構が系統的信号保持に与える影響を調査すること。
  • 大規模または無限大の状態空間への結果の拡張;遺伝子配列などのゲノムデータに適したもの。
  • 特定のアルゴリズムに限定されない、あらゆる系統樹再構築手法に適用可能な情報理論的限界を提供すること。

提案手法

  • 特性進化のモデルとして木構造上のマルコフ過程を用い、群や正則グラフ上のランダムウォークとして扱う。
  • 元の特性プロセスと変換されたプロセスを関連付けるためのカップリング技術を適用し、再構築確率の上限を得る。
  • ランダムクラスターモデルを用いて系統樹再構築正確性の上限を導出し、正しい回復確率とモデルパラメータの関係を結びつける。
  • サイト状態をs-タプルに集約するカップルドプロセスを導入し、群ベースの進化を模擬することで統計的整合性の分析を可能にする。
  • ボンフェローニ不等式を用いて、正しい再構築と事象H(分割の保存)の同時確率を上限付ける。
  • p_max(最大置換確率)が1/2に対してどのように振る舞うかを検討することで、再構築正確性の段階的転移を分析する。

実験結果

リサーチクエスチョン

  • RQ1マルコフ過程下で有限個の進化的特性から、真の系統樹に関するどの程度の情報が回復可能か?
  • RQ2系統樹再構築が統計的に不整合的になる置換確率の臨界閾値は何か?
  • RQ3必要な特性数は、種の数と置換率にどのように依存するか?
  • RQ4最大相同性法や適合性法をs-タプルにサイトを集約することで、統計的整合性を達成できるか?
  • RQ5大規模または無限大の状態空間(例:遺伝子配列)を伴うモデルは、正確な系統樹再構築に必要な特性数にどのような影響を与えるか?

主な発見

  • 正しい系統的状態を再構築する確率は上限を持つ。この上限は、アラインド配列からの系統樹再構築の正確性に上限を設ける。
  • 置換確率が臨界値を超えると段階的転移が生じる。この点を超えると、深い分岐に関する情報が急速に消失する。
  • 対称的2状態モデルでは、p_max > 1/2 の場合、最大相同性法は統計的に不整合的であり、サイトをs-タプルに集約してもこの問題は解決しない。
  • ランダムクラスターモデル下では、高い確率での系統樹再構築に必要な特性数は、種の数nの対数log(n)に比例して増加する。
  • カップルドプロセスモデルにより、変換済み特性が高確率で系統樹を回復する場合、事象H(分割の保存)が高確率で成立する限り、元の特性に対しても同様に成立する。
  • 系統樹再構築確率に対する解析的上限は一般性を持ち、あらゆる手法に適用可能であり、情報損失および保持のメカニズムに関する洞察を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。