[論文レビュー] Inferring species trees directly from SNP and AFLP data: full coalescent analysis without those pesky gene trees
本論文は、SNAPPで実装された多項式時間のアルゴリズムを紹介し、遺伝子樹の明示的推定を必要とせずに、マルチスプライスコalescentモデルの下で尤度を計算することで、SNPおよびAFLPデータから直接系統樹を推定する。この手法は、有限サイト変異モデルを用いて、すべての可能な遺伝子樹を統合的に効率的に処理し、二対性マーカーからの系統樹、分化時刻、集団サイズの正確な推定を可能にする。
The multi-species coalescent provides an elegant theoretical framework for estimating species trees and species demographics from genetic markers. Practical applications of the multi-species coalescent model are, however, limited by the need to integrate or sample over all gene trees possible for each genetic marker. Here we describe a polynomial-time algorithm that computes the likelihood of a species tree directly from the markers under a finite-sites model of mutation, effectively integrating over all possible gene trees. The method applies to independent (unlinked) biallelic markers such as well-spaced single nucleotide polymorphisms (SNPs), and we have implemented it in SNAPP, a Markov chain Monte-Carlo sampler for inferring species trees, divergence dates, and population sizes. We report results from simulation experiments and from an analysis of 1997 amplified fragment length polymorphism (AFLP) loci in 69 individuals sampled from six species of {\em Ourisia} (New Zealand native foxglove).
研究の動機と目的
- マルチスプライスコalescentモデル下でのすべての可能な遺伝子樹の統合における計算のボトル neck を克服すること。
- SNPs や AFLPs のような二対性マーカーから直接系統樹の尤度を計算する手法を開発すること。
- マルコフ連鎖モンテカルロサンプリングを用いて、系統樹、分化時刻、集団サイズを効率的に推定すること。
- 本手法を実世界のデータに適用し、6種のOurisia種に跨る69体の個体からなる大規模なAFLPデータセットを含むこと。
提案手法
- 本手法は、遺伝子樹の明示的列挙を必要とせず、二対性マーカーから直接系統樹の尤度を計算するために、有限サイト変異モデルを用いる。
- 各マーカーについて、すべての可能な遺伝子樹の系統的構造と分岐長を統合する多項式時間のアルゴリズムを適用し、遺伝子樹のマルコフ連鎖モンテカルロサンプリングを回避する。
- 本手法はSNAPPとして実装されており、ベイジアンMCMCサンプラーとして、系統樹、分化時刻、集団サイズを同時に推定する。
- 二対性マーカーにおいて、特定のマーカー様式が観察される確率は、すべての可能な遺伝子樹構成を合算することで計算できることを活用する。
- 変異を離散的なサイトで発生させ、有限個の状態を持つものとしてモデル化することで、コalescent下でのサイトパターン確率を正確に計算可能となる。
実験結果
リサーチクエスチョン
- RQ1遺伝子樹の推定を経ずに、SNPおよびAFLPデータから系統樹を直接推定できるか?
- RQ2提案手法は、遺伝子樹ベースの手法と比較して、計算コストを低減しつつも正確な系統樹推定を達成できるか?
- RQ3欠損データと高頻度の多様性を示す典型的なAFLPマーカーを有する実世界のAFLPデータに対して、本手法はどの程度の性能を示すか?
- RQ4本手法は、系統樹の系統的構造と併せて、分化時刻と集団サイズを信頼性高く推定できるか?
主な発見
- 遺伝子樹のサンプリングを必要とせず、マルチスプライスコalescentモデル下での尤度を直接計算することで、計算負荷を軽減し、正確な系統樹推定を達成した。
- シミュレーション実験では、複雑な人口動態シナリオ下でも、本手法が高精度で系統樹の系統的構造を回復した。
- 6種のOurisia種に跨る69体の個体から得られた1997個のAFLP座標の解析により、信頼性の高い系統樹が得られ、分化時刻と集団サイズの推定も行われた。
- 本手法は、AFLPマーカーに一般的に見られる欠損データと高い多様性レベルに対しても、頑健であることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。