[论文解读] The allelic partition for coalescent point processes
本论文研究在无限位点突变模型下,共祖先点过程中的等位基因分区——即基因系谱模型中,排序个体间共祖先时间独立同分布——的渐近行为。推导出多态位点数 $ S_n $ 和不同单倍型数 $ A_n $ 的精确渐近速率,表明其呈线性增长且具有显式速率;并建立突变与单倍型频率谱在临界生灭过程中的调和级数与对数级数规律。
Assume that individuals alive at time $t$ in some population can be ranked in such a way that the coalescence times between consecutive individuals are i.i.d. The ranked sequence of these branches is called a coalescent point process. We have shown in a previous work that splitting trees are important instances of such populations. Here, individuals are given DNA sequences, and for a sample of $n$ DNA sequences belonging to distinct individuals, we consider the number $S_n$ of polymorphic sites (sites at which at least two sequences differ), and the number $A_n$ of distinct haplotypes (sequences differing at one site at least). It is standard to assume that mutations arrive at constant rate (on germ lines), and never hit the same site on the DNA sequence. We study the mutation pattern associated to coalescent point processes under this assumption. Here, $S_n$ and $A_n$ grow linearly as $n$ grows, with explicit rate. However, when the branch lengths have infinite expectation, $S_n$ grows more rapidly, e.g. as $n \ln(n)$ for critical birth--death processes. Then, we study the frequency spectrum of the sample, that is, the numbers of polymorphic sites/haplotypes carried by $k$ individuals in the sample. These numbers are shown to grow also linearly with sample size, and we provide simple explicit formulae for mutation frequencies and haplotype frequencies. For critical birth--death processes, mutation frequencies are given by the harmonic series and haplotype frequencies by Fisher logarithmic series.
研究动机与目标
- 在恒定突变速率模型下,刻画共祖先点过程中多态位点数 $ S_n $ 与不同单倍型数 $ A_n $ 的渐近行为。
- 推导不同样本大小下多态位点与单倍型频率谱的显式公式。
- 建立分裂树基因系谱结构与无限位点模型中突变分布之间的联系。
- 分析当总分支长度具有无限期望时(如临界生灭过程)的等位基因统计量的极限行为。
- 利用再生结构与点过程技术,在排序基因系谱上建立等位基因频率的严格大数定律。
提出的方法
- 将 $ n $ 个个体的谱系建模为共祖先点过程,其中排序列表中连续个体间的共祖先时间为独立同分布的随机变量。
- 利用分裂树的跳跃轮廓过程,证明分支长度 $ H_i $ 独立同分布,并与 Lévy 过程的尺度函数 $ W $ 相关联。
- 应用无限位点模型:突变沿谱系以恒定速率发生,且不会重复作用于同一位置。
- 利用 $ H $ 的生存函数(通过尺度函数 $ W $ 表达)推导每条谱系上突变数的分布。
- 利用再生结构与更新理论,对携带 $ k $ 个个体的突变频率应用强大数定律。
- 通过分部积分与尺度函数 $ W $ 的拉普拉斯变换,推导出具有 $ k $ 个拷贝的位点/单倍型期望数的精确表达式。
实验结果
研究问题
- RQ1在总分支长度期望为无穷的共祖先点过程中,多态位点数 $ S_n $ 如何随样本大小 $ n $ 增长?
- RQ2在样本中,突变在 $ k $ 个个体中的频率谱的渐近分布是什么?
- RQ3具有 $ k $ 个拷贝的不同单倍型的期望数量如何随 $ n $ 变化,其精确表达式是什么?
- RQ4当底层共祖先过程具有重尾分支长度(如临界生灭过程)时,等位基因分区的极限行为如何?
- RQ5能否利用底层 Lévy 过程的尺度函数,以闭式表达突变与单倍型的频率谱?
主要发现
- 多态位点数 $ S_n $ 随 $ n $ 线性增长,速率为 $ \mathbb{E}[1 - e^{-\theta H}] $,其中 $ \theta $ 为突变速率,$ H $ 为分支长度分布。
- 不同单倍型数 $ A_n $ 随 $ n $ 线性增长,速率为 $ \mathbb{E}[1 - e^{-\theta H^\theta}] $,其中 $ H^\theta $ 为 $ H $ 的大小加权版本。
- 对于临界生灭过程,突变频率谱遵循调和级数:具有 $ k $ 个拷贝的位点的期望数为 $ \theta / k $。
- 对于同一过程,单倍型频率谱遵循费希尔的对数级数:具有 $ k $ 个拷贝的单倍型的期望数为 $ \theta / k $。
- 当总分支长度具有无限期望时,$ S_n $ 的增长为 $ n \ln n $,表明等位基因多样性发生相变。
- 由 $ k $ 个个体携带的位点或单倍型的渐近频率为 $ \sum_{j \geq 1} \mathbb{P}(N_j \geq k) $,其中 $ N_j $ 为第 $ j $ 条谱系后代的个体数,该和通过尺度函数 $ W_\theta $ 表达。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。