Skip to main content
QUICK REVIEW

[論文レビュー] Decomposing the site frequency spectrum: the impact of tree topology on neutrality tests

Luca Ferretti, Alice Ledda|arXiv (Cornell University)|Oct 22, 2015
Genetic diversity and population structure参考文献 38被引用数 39
ひとこと要約

本稿は、サイト周頻度スペクトル(SFS)を共重合待ち時間と木の構造に分解し、中立性検定(TajimaのD や Fay & WuのH)が木のバランス、特にルートバランスに直接的に影響されることを示している。新たな検定 L を提案し、これらの検定の極端な期待値を導出し、サンプルサイズとSNP数に依存しない正規化を提案することで、異なる集団間でのより解釈可能な比較が可能になる。

ABSTRACT

We investigate the dependence of the site frequency spectrum (SFS) on the topological structure of genealogical trees. We show that basic population genetic statistics - for instance estimators of $\ heta$ or neutrality tests such as Tajima's $D$ - can be decomposed into components of waiting times between coalescent events and of tree topology. Our results clarify the relative impact of the two components on these statistics. We provide a rigorous interpretation of positive or negative values of an important class of neutrality tests in terms of the underlying tree shape. In particular, we show that values of Tajima's $D$ and Fay and Wu's $H$ depend in a direct way on a peculiar measure of tree balance which is mostly determined by the root balance of the tree. We present a new test for selection in the same class as Fay and Wu's $H$ and discuss its interpretation and power. Finally, we determine the trees corresponding to extreme expected values of these neutrality tests and present formulae for these extreme values as a function of sample size and number of segregating sites.

研究の動機と目的

  • 共重合待ち時間と系統樹の構造がサイト周頻度スペクトル(SFS)に与える寄与を解析的に分離すること。
  • 特にルートバランスがTajimaのD や Fay & WuのH といった一般的な中立性検定に与える影響を明確にすること。
  • Fay & WuのH と同じクラスの新たな中立性検定(L)を、解釈性を高めた形で開発すること。
  • 中立性検定の期待値が最大または最小となる系統樹の系統的構造を同定すること。
  • サンプルサイズと多様性部位数に依存しない中立性検定統計量の正規化を提案し、異なるサンプル間での比較を可能にすること。

提案手法

  • 共重合理論に基づく数学的枠組みを用いて、SFSを共重合待ち時間に依存する成分と木の構造に依存する成分に分解する。
  • 集団遺伝学に特化した木の不均衡度の新たな測定法を導入し、特にルートバランスがSFSの歪度に与える主な要因であることを強調する。
  • 待ち時間と木の構造を関数として、中立性検定(例:D, H, L)の期待値を明示的な式で導出する。
  • 中立性検定の期待値が最大または最小となる極端な木(極めてバランスの取れた木と極めて不均衡な木)を同定する。
  • 理論的極端値で統計量を正規化する手法を提案し、異なるn と S を持つサンプル間での比較を可能にする。
  • n の整数分割に関する最適化を用いて、検定統計量を極値に抑える木の形状(k分割パターン)を同定する。

実験結果

リサーチクエスチョン

  • RQ1木の構造、特にルートバランスは、TajimaのD や Fay & WuのH の期待値にどのように影響を与えるか?
  • RQ2サイト周頻度スペクトルは待ち時間と木の形状の成分にどのように数学的に分解できるか?
  • RQ3どの系統樹の構造が中立性検定の期待値を最大または最小にするか?
  • RQ4木の形状に基づいてより直接的に解釈可能な新たな中立性検定を構築できるか?
  • RQ5サンプルサイズと多様性部位数に依存しないように、中立性検定統計量をどのように正規化できるか?

主な発見

  • TajimaのD と Fay & WuのH は、木のバランスの尺度に直接的に依存しており、その値に影響を与える主な要因はルートバランスである。
  • 中立性検定の極端な期待値は、極めてバランスの取れた木または極めて不均衡な木の構造で達成され、その明示的な式はサンプルサイズn と多様性部位数S の関数として導出された。
  • Fay & WuのH と同じクラスの選択検定として、L を提案し、木の形状に基づく明確な解釈性と期待値の明確な範囲を有する。
  • 統計量を理論的極端値で正規化することで、n と S に依存しない性質が得られ、異なるサンプル間での検定値の直接比較が可能になる。
  • 正規化された統計量は概ね -1 から 1 の範囲に収まり、±1 に近い値は極端な木の構造に近いことを示している。
  • 1000 Genomes データの実証的解析から、正規化された検定値は、元の値よりも集団間で比較可能であることが示されたが、信頼区間の計算には依然としてn と S に条件づけられる必要がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。