Skip to main content
QUICK REVIEW

[论文解读] On Poisson approximations for the Ewens sampling formula when the mutation parameter grows with the sample size

Koji Tsukuda|arXiv (Cornell University)|Apr 22, 2017
Bayesian Methods and Mixture Models参考文献 41被引用 8
一句话总结

本论文针对样本量 $n$ 与突变参数 $ heta$ 同时增长的情形,发展了对 Ewens 抽样公式的泊松近似方法,重点关注等位基因总数 $K_n$ 与组分计数 $C_n^b$。通过泊松过程近似,建立了向布朗运动的弱收敛,将经典结果推广至 $ heta o iginfty$ 与 $n$ 同时增长的联合渐近情形,并在多种标度下(包括 $n/ heta o c$ 与 $n^2/ heta o c$)证明了功能性中心极限定理。主要贡献在于在 $n$ 与 $ heta$ 联合增长的条件下,对等位基因划分统计量建立了严格的泛函极限定理。

ABSTRACT

The Ewens sampling formula was firstly introduced in the context of population genetics by Warren John Ewens in 1972, and has appeared in a lot of other scientific fields. There are abundant approximation results associated with the Ewens sampling formula especially when one of the parameters, the sample size $n$ or the mutation parameter $ heta$ which denotes the scaled mutation rate, tends to infinity while the other is fixed. By contrast, the case that $ heta$ grows with $n$ has been considered in a relatively small number of works, although this asymptotic setup is also natural. In this paper, when $ heta$ grows with $n$, we advance the study concerning the asymptotic properties of the total number of alleles and of the counts of components in the allelic partition assuming the Ewens sampling formula from the viewpoint of Poisson approximations.

研究动机与目标

  • 将 Ewens 抽样公式经典泊松近似结果推广至样本量 $n$ 与突变参数 $\theta$ 同时增长的情形。
  • 从泊松过程近似的视角,研究在 $n$ 与 $ heta$ 联合增长下,等位基因总数 $K_n$ 与组分计数 $C_n^b$ 的渐近行为。
  • 将 Ewens 抽样公式的泛函中心极限定理推广至 $ heta$ 随 $n$ 增长的 regimes,包括 $n/\theta \to c > 0$ 与 $n^2/\theta \to c > 0$ 的情形。
  • 通过泊松过程与更新过程技术,建立归一化等位基因划分过程在 $L^2(0,1)$ 中弱收敛于布朗运动极限。

提出的方法

  • 使用泊松过程近似处理 Ewens 抽样公式,将 Arratia, Barbour 与 Tavar\'e (1992) 的结果扩展至 $n, \theta \to \infty$ 的联合情形。
  • 通过归一化计数过程 $X_n(u)$ 在 $L^2(0,1)$ 中弱收敛于 $B(u)/\sqrt{u}$ 的方法,应用泛函中心极限定理技术。
  • 利用上升阶乘 $(\theta)_n$ 与伽马函数比值的渐近展开,分析各阶矩与收敛速度。
  • 提出一个广义泊松过程收敛引理(引理 A.4),以处理在一般标度 $f(n)$ 下非泊松强度函数 $s_n(u)$ 的情形。
  • 通过期望与方差的界,分析归一化等位基因计数在总变差距离与 $L^2$-范数下的收敛性。
  • 通过将 $C_n^j$ 与泊松随机变量 $N_1(u\theta \log n)$ 比较,并在 $L^2$-范数下分析其差异,推导出关键近似。

实验结果

研究问题

  • RQ1当 $n$ 与 $ heta$ 同时增长时,等位基因总数 $K_n$ 与组分计数 $C_n^b$ 的渐近行为如何?
  • RQ2能否将 Ewens 抽样公式的泊松过程近似扩展至 $n, \theta \to \infty$ 的联合渐近情形?
  • RQ3在不同标度下,归一化等位基因划分过程 $X_n(u)$ 的泛函极限行为如何?
  • RQ4当 $ heta$ 随 $n$ 增长时,归一化等位基因计数过程是否在 $L^2(0,1)$ 中弱收敛于布朗运动极限?
  • RQ5真实与近似泊松过程之间总变差距离趋于零的条件是什么?

主要发现

  • 在 $ heta \sim c \log n$ 的标度下,当 $n, \theta \to \infty$ 时,归一化等位基因划分过程 $X_n(u)$ 在 $L^2(0,1)$ 中弱收敛于 $B(u)/\sqrt{u}$。
  • 对于 $n/\theta \to c > 0$ 的情形,过程 $X_n(u)$ 弱收敛于 $B(u)/\sqrt{u}$,从而确立了泛函中心极限定理。
  • 在 $ heta^2/n \to 0$ 的条件下,真实等位基因计数过程与泊松近似之间的总变差距离趋于零,确保了近似的良好质量。
  • 论文证明了 $\|X_n - P^\circ_5\|_{L^2} \to_p 0$,确认了归一化过程收敛于布朗运动极限。
  • 在 $n^2/\theta \to c > 0$ 的条件下,$X_n(u)$ 与其极限之间差值的 $L^2$-范数的收敛速率受控于 $O(\theta^{-1/2})$。
  • 推导出 $(\theta)_n / n!$ 的渐近展开式为 $n^{\theta-1} \left(1 + \frac{\theta(\theta-1)}{2n} + O(\theta^4/n^2)\right)$,为证明中的矩分析提供了支持。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。