[论文解读] A compendium of covariances and correlation coefficients of coalescent tree properties
本文推导了在Kingman共祖先过程下,15对共祖先树特征——高度(Hn)、总长度(Ln)、外部分支长度(En)、内部分支长度(In)、基部分支均值(Bn)以及共祖先时间(Tk)——的精确与近似协方差及相关系数。结果表明,当 n → ∞ 时,Hn、Ln、In 和 Bn 之间高度相关,所有成对相关系数均超过 0.8493,而 En 尽管与 Hn 具有相同的期望值,但在极限下与其余特征无关。
Gene genealogies are frequently studied by measuring properties such as their height ($H$), length ($L$), sum of external branches ($E$), sum of internal branches ($I$), and mean of their two basal branches ($B$), and the coalescence times that contribute to the other genealogical features ($T$). These tree properties and their relationships can provide insight into the effects of population-genetic processes on genealogies and genetic sequences. Here, under the coalescent model, we study the 15 correlations among pairs of features of genealogical trees: $H_n$, $L_n$, $E_n$, $I_n$, $B_n$, and $T_k$ for a sample of size $n$, with $2 \leq k \leq n$. We report high correlations among $H_n$, $L_n$, $I_n,$ and $B_n$, with all pairwise correlations of these quantities having values greater than or equal to $\sqrt{6} [6 \zeta(3) + 6 - \pi^2] / ( \pi \sqrt{18 + 9\pi^2 - \pi^4}) \approx 0.84930$ in the limit as $n ightarrow \infty$. Although $E_n$ has an expectation of 2 for all $n$ and $H_n$ has expectation 2 in the limit as $n ightarrow \infty$, their limiting correlation is 0. The results contribute toward understanding features of the shapes of coalescent trees.
研究动机与目标
- 系统量化关键共祖先树特征 Hn、Ln、En、In、Bn 和 Tk 之间的统计关系。
- 在标准 Kingman 共祖先模型下,计算所有 15 对特征之间的精确与极限协方差及相关系数。
- 解决长期存在的疑问:树形特征(如基部分支长度 Bn)与其它特征之间的相关性,尤其是在大样本情况下的表现。
- 为群体遗传推断,特别是基于位点频率谱的检验,提供一个关于相互依赖关系的基础性汇编。
提出的方法
- 利用共祖先过程推导协方差与相关系数的精确表达式,其中所有树特征均为共祖先时间 Tk 的线性函数。
- 利用已知分布:Tk ~ Exp(k/2),其 E[Tk] = 2/(k(k−1)) 与 Var[Tk] = 4/(k²(k−1)²),并将 Hn、Ln、En、In、Bn 表示为这些 Tk 的和或函数。
- 利用递推关系与已知结果(如 Fu & Li, 1993;Arbisser et al., 2018)推导方差与协方差,特别是针对 En 与 Bn。
- 应用渐近分析(n → ∞)以评估极限相关系数,使用已知的黎曼 zeta 函数极限,如 ζ(2) = π²/6 与 ζ(3) ≈ 1.20206。
- 对于 (En, Bn) 与 (In, Bn),基于模拟验证与解析近似,推导其近似协方差与相关系数。
- 使用黎曼 zeta 函数与调和和(Sp,n = ∑₁ⁿ 1/kᵖ)表达极限值,包括 Hn、Ln、In、Bn 之间极限相关系数的下限表达式:√[6(6ζ(3)+6−π²)]/(π√(18+9π²−π⁴)) ≈ 0.84930。
实验结果
研究问题
- RQ1所有 15 对共祖先树特征 Hn、Ln、En、In、Bn 和 Tk 之间的精确与极限相关系数为何?
- RQ2为何 En 在极限下与 Hn、Ln、In 和 Bn 无关,尽管 En 与 Hn 的极限期望值均为 2?
- RQ3Bn 与其他特征之间的相关性与 Hn 和 Ln 的相关性相比如何,特别是考虑到 Bn 是 Tk 的随机长度和?
- RQ4In 与 Ln 之间的相关性的渐近行为如何?为何它们在极限下完全相关?
- RQ5通过量化其相互依赖性,能否更好地理解树特征的联合分布,特别是对基于位点频率谱的推断?
主要发现
- Hn、Ln、In 与 Bn 之间的所有成对相关系数在 n → ∞ 时收敛至至少 0.84930 的极限值,其精确下限为 √[6(6ζ(3)+6−π²)]/(π√(18+9π²−π⁴)) ≈ 0.84930。
- In 与 Ln 之间的极限相关系数恰好为 1,表明内部长度与总长度在渐近意义上完全相关。
- 尽管 En 与 Hn 的极限期望值均为 2,但它们的极限相关系数为 0,表明二者在渐近意义上无关。
- Bn 与 Tk(k > 2)之间的相关系数通常小于 Hn 与 Tk 之间的相关系数,这是由于 Bn 更受 T2 的强烈影响。
- En 与 Tk 之间的相关系数为常数且与 k 无关,反映出外部分支不受后续共祖先时间的影响。
- 对于 (En, Bn) 与 (In, Bn),本文提供了经模拟验证的近似协方差与相关系数,表明通过扩展先前关于分支长度分布的工作,精确推导可能实现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。