Skip to main content
QUICK REVIEW

[论文解读] A compendium of covariances and correlation coefficients of coalescent tree properties

Egor Alimpiev, Noah A. Rosenberg|arXiv (Cornell University)|Mar 24, 2021
Genetic Mapping and Diversity in Plants and Animals参考文献 32被引用 8
一句话总结

本文推导了在Kingman共祖先过程下,15对共祖先树特征——高度(Hn)、总长度(Ln)、外部分支长度(En)、内部分支长度(In)、基部分支均值(Bn)以及共祖先时间(Tk)——的精确与近似协方差及相关系数。结果表明,当 n → ∞ 时,Hn、Ln、In 和 Bn 之间高度相关,所有成对相关系数均超过 0.8493,而 En 尽管与 Hn 具有相同的期望值,但在极限下与其余特征无关。

ABSTRACT

Gene genealogies are frequently studied by measuring properties such as their height ($H$), length ($L$), sum of external branches ($E$), sum of internal branches ($I$), and mean of their two basal branches ($B$), and the coalescence times that contribute to the other genealogical features ($T$). These tree properties and their relationships can provide insight into the effects of population-genetic processes on genealogies and genetic sequences. Here, under the coalescent model, we study the 15 correlations among pairs of features of genealogical trees: $H_n$, $L_n$, $E_n$, $I_n$, $B_n$, and $T_k$ for a sample of size $n$, with $2 \leq k \leq n$. We report high correlations among $H_n$, $L_n$, $I_n,$ and $B_n$, with all pairwise correlations of these quantities having values greater than or equal to $\sqrt{6} [6 \zeta(3) + 6 - \pi^2] / ( \pi \sqrt{18 + 9\pi^2 - \pi^4}) \approx 0.84930$ in the limit as $n ightarrow \infty$. Although $E_n$ has an expectation of 2 for all $n$ and $H_n$ has expectation 2 in the limit as $n ightarrow \infty$, their limiting correlation is 0. The results contribute toward understanding features of the shapes of coalescent trees.

研究动机与目标

  • 系统量化关键共祖先树特征 Hn、Ln、En、In、Bn 和 Tk 之间的统计关系。
  • 在标准 Kingman 共祖先模型下,计算所有 15 对特征之间的精确与极限协方差及相关系数。
  • 解决长期存在的疑问:树形特征(如基部分支长度 Bn)与其它特征之间的相关性,尤其是在大样本情况下的表现。
  • 为群体遗传推断,特别是基于位点频率谱的检验,提供一个关于相互依赖关系的基础性汇编。

提出的方法

  • 利用共祖先过程推导协方差与相关系数的精确表达式,其中所有树特征均为共祖先时间 Tk 的线性函数。
  • 利用已知分布:Tk ~ Exp(k/2),其 E[Tk] = 2/(k(k−1)) 与 Var[Tk] = 4/(k²(k−1)²),并将 Hn、Ln、En、In、Bn 表示为这些 Tk 的和或函数。
  • 利用递推关系与已知结果(如 Fu & Li, 1993;Arbisser et al., 2018)推导方差与协方差,特别是针对 En 与 Bn。
  • 应用渐近分析(n → ∞)以评估极限相关系数,使用已知的黎曼 zeta 函数极限,如 ζ(2) = π²/6 与 ζ(3) ≈ 1.20206。
  • 对于 (En, Bn) 与 (In, Bn),基于模拟验证与解析近似,推导其近似协方差与相关系数。
  • 使用黎曼 zeta 函数与调和和(Sp,n = ∑₁ⁿ 1/kᵖ)表达极限值,包括 Hn、Ln、In、Bn 之间极限相关系数的下限表达式:√[6(6ζ(3)+6−π²)]/(π√(18+9π²−π⁴)) ≈ 0.84930。

实验结果

研究问题

  • RQ1所有 15 对共祖先树特征 Hn、Ln、En、In、Bn 和 Tk 之间的精确与极限相关系数为何?
  • RQ2为何 En 在极限下与 Hn、Ln、In 和 Bn 无关,尽管 En 与 Hn 的极限期望值均为 2?
  • RQ3Bn 与其他特征之间的相关性与 Hn 和 Ln 的相关性相比如何,特别是考虑到 Bn 是 Tk 的随机长度和?
  • RQ4In 与 Ln 之间的相关性的渐近行为如何?为何它们在极限下完全相关?
  • RQ5通过量化其相互依赖性,能否更好地理解树特征的联合分布,特别是对基于位点频率谱的推断?

主要发现

  • Hn、Ln、In 与 Bn 之间的所有成对相关系数在 n → ∞ 时收敛至至少 0.84930 的极限值,其精确下限为 √[6(6ζ(3)+6−π²)]/(π√(18+9π²−π⁴)) ≈ 0.84930。
  • In 与 Ln 之间的极限相关系数恰好为 1,表明内部长度与总长度在渐近意义上完全相关。
  • 尽管 En 与 Hn 的极限期望值均为 2,但它们的极限相关系数为 0,表明二者在渐近意义上无关。
  • Bn 与 Tk(k > 2)之间的相关系数通常小于 Hn 与 Tk 之间的相关系数,这是由于 Bn 更受 T2 的强烈影响。
  • En 与 Tk 之间的相关系数为常数且与 k 无关,反映出外部分支不受后续共祖先时间的影响。
  • 对于 (En, Bn) 与 (In, Bn),本文提供了经模拟验证的近似协方差与相关系数,表明通过扩展先前关于分支长度分布的工作,精确推导可能实现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。