Skip to main content
QUICK REVIEW

[论文解读] Decomposing the site frequency spectrum: the impact of tree topology on neutrality tests

Luca Ferretti, Alice Ledda|arXiv (Cornell University)|Oct 22, 2015
Genetic diversity and population structure参考文献 38被引用 39
一句话总结

本文将单倍型频率谱(SFS)分解为共祖先等待时间与树拓扑结构的贡献,证明中性检验如Tajima's D和Fay & Wu's H直接受树的平衡性(尤其是根部平衡性)的影响。文章提出了一项新检验L,推导出这些检验的极端期望值,并提出一种归一化方法,消除了对样本大小和SNP数量的依赖,从而实现跨种群的可解释性比较。

ABSTRACT

We investigate the dependence of the site frequency spectrum (SFS) on the topological structure of genealogical trees. We show that basic population genetic statistics - for instance estimators of $\ heta$ or neutrality tests such as Tajima's $D$ - can be decomposed into components of waiting times between coalescent events and of tree topology. Our results clarify the relative impact of the two components on these statistics. We provide a rigorous interpretation of positive or negative values of an important class of neutrality tests in terms of the underlying tree shape. In particular, we show that values of Tajima's $D$ and Fay and Wu's $H$ depend in a direct way on a peculiar measure of tree balance which is mostly determined by the root balance of the tree. We present a new test for selection in the same class as Fay and Wu's $H$ and discuss its interpretation and power. Finally, we determine the trees corresponding to extreme expected values of these neutrality tests and present formulae for these extreme values as a function of sample size and number of segregating sites.

研究动机与目标

  • 通过解析方法分离共祖先等待时间与树拓扑结构对单倍型频率谱(SFS)的贡献。
  • 阐明树形结构(尤其是根部平衡性)如何影响Tajima's D和Fay & Wu's H等常见中性检验。
  • 开发一种与Fay & Wu's H同类型的新型中性检验(L),并提升其可解释性。
  • 推导出使中性检验期望值达到最大或最小的系统发育树。
  • 提出一种中性检验统计量的归一化方法,消除对样本大小和可变位点数的依赖,从而实现跨样本比较。

提出的方法

  • 基于共祖先理论的数学框架,将SFS分解为依赖于共祖先等待时间与树拓扑结构的分量。
  • 提出一种专用于群体遗传学的新型树不平衡度量,强调根部平衡性是SFS偏度的关键决定因素。
  • 推导出中性检验(如D、H、L)期望值的显式公式,作为树拓扑结构与等待时间的函数。
  • 识别出极端树——即完全平衡与完全不平衡的树——此时中性检验的期望值达到最大或最小。
  • 通过理论极值对检验统计量进行归一化,实现对不同n和S样本的比较。
  • 利用n的整数分拆优化,寻找使检验统计量极值化的树形结构(k-分裂模式)。

实验结果

研究问题

  • RQ1树拓扑结构,尤其是根部平衡性,如何影响Tajima's D和Fay & Wu's H等中性检验的期望值?
  • RQ2单倍型频率谱如何被数学分解为等待时间与树形结构的分量?
  • RQ3哪些系统发育树拓扑结构会使中性检验的期望值达到最大或最小?
  • RQ4能否构建一种新型中性检验,使其对树形结构的解释更加直接?
  • RQ5如何对中性检验统计量进行归一化,以消除对样本大小和可变位点数的依赖,从而实现跨种群比较?

主要发现

  • Tajima's D与Fay & Wu's H的值由树平衡性的度量直接决定,其中根部平衡性是主导因素。
  • 中性检验的极端期望值出现在完全平衡或完全不平衡的树拓扑结构上,其显式公式以样本大小n和可变位点数S为参数。
  • 提出新检验L作为与Fay & Wu's H同类型的选型检验,其对树形结构有清晰解释,且期望值范围明确。
  • 通过理论极值对检验统计量进行归一化,可消除对n和S的依赖,从而实现对不同样本间检验值的直接比较。
  • 归一化后的检验统计量范围约为-1至1,接近±1的值表示树形接近极端拓扑结构。
  • 对1000 Genomes数据的实证分析表明,归一化后的检验值在不同种群间更具可比性,但置信区间仍需基于n和S进行条件计算。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。