Skip to main content
QUICK REVIEW

[논문 리뷰] On Poisson approximations for the Ewens sampling formula when the mutation parameter grows with the sample size

Koji Tsukuda|arXiv (Cornell University)|2017. 04. 22.
Bayesian Methods and Mixture Models참고 문헌 41인용 수 8
한 줄 요약

이 논문은 표본 크기 $n$과 돌연변이 파라미터 $ heta$가 모두 증가할 때 Ewens 샘플링 공식에 대한 포아송 근사 방법을 개발한다. 주로 전체 알레르기 수 $K_n$과 구성 요소 수 $C_n^b$에 중점을 두며, 포아송 과정 근사를 통해 브라운 운동으로의 약한 수렴을 확립한다. 이는 고전 결과를 $ heta \to \infty$와 함께 $n$이 증가하는 공동 점점적 영역으로 확장한 것으로, $n/\theta \to c$ 및 $n^2/\theta \to c$와 같은 다양한 스케일링 영역에서 기능 중심극한정리(함수 중심극한정리)를 증명한다. 주요 기여는 $n$과 $ heta$가 동시에 증가하는 조건에서 알레르기 분할 통계량에 대한 엄밀한 기능 극한정리 수립이다.

ABSTRACT

The Ewens sampling formula was firstly introduced in the context of population genetics by Warren John Ewens in 1972, and has appeared in a lot of other scientific fields. There are abundant approximation results associated with the Ewens sampling formula especially when one of the parameters, the sample size $n$ or the mutation parameter $ heta$ which denotes the scaled mutation rate, tends to infinity while the other is fixed. By contrast, the case that $ heta$ grows with $n$ has been considered in a relatively small number of works, although this asymptotic setup is also natural. In this paper, when $ heta$ grows with $n$, we advance the study concerning the asymptotic properties of the total number of alleles and of the counts of components in the allelic partition assuming the Ewens sampling formula from the viewpoint of Poisson approximations.

연구 동기 및 목표

  • 표본 크기 $n$과 돌연변이 파라미터 $\theta$가 동시에 증가하는 경우에 대해 고전적인 포아송 근사 결과를 Ewens 샘플링 공식에 확장하기.
  • 특히 포아송 과정 근사 시각에서 $n$과 $ heta$의 공동 증가 조건 하에서 전체 알레르기 수 $K_n$과 구성 요소 수 $C_n^b$의 점점적 행동을 연구하기.
  • Ewens 샘플링 공식에 대한 기능 중심극한정리를 $ heta$가 $n$과 함께 증가하는 영역으로 일반화하기, 특히 $n/\theta \to c > 0$ 및 $n^2/\theta \to c > 0$의 경우 포함.
  • 포아송 과정 및 재생 과정 기법을 사용하여 정규화된 알레르기 분할 과정이 $L^2(0,1)$에서 브라운 운동 극한으로 약한 수렴을 확립하기.

제안 방법

  • Arratia, Barbour, and Tavar\'e (1992)의 결과를 $n, \theta \to \infty$ 공동 영역으로 확장하여 Ewens 샘플링 공식에 대한 포아송 과정 근사를 사용한다.
  • 정규화된 카운팅 과정 $X_n(u)$의 약한 수렴을 $B(u)/\sqrt{u}$로 $L^2(0,1)$에서 기능 중심극한정리 기법을 적용한다.
  • 상승 계승계수 $(\theta)_n$과 감마 함수 비율의 점점적 전개를 사용하여 모멘트와 수렴 속도를 분석한다.
  • 일반적인 스케일링 $f(n)$ 하에서 비포아송 강도 함수 $s_n(u)$를 다룰 수 있는 일반화된 포아송 과정 수렴 보조정리(보조정리 A.4)를 도입한다.
  • 기대값과 분산에 대한 경계를 사용하여 정규화된 알레르기 수의 총변동 거리와 $L^2$-노름 수렴을 분석한다.
  • 특히 $C_n^j$를 포아송 랜덤 변수 $N_1(u\theta \log n)$와 비교하여 $L^2$-노름에서의 차이를 분석함으로써 핵심 근사식을 유도한다.

실험 결과

연구 질문

  • RQ1표본 크기 $n$과 돌연변이 파라미터 $\theta$가 모두 증가할 때 전체 알레르기 수 $K_n$과 구성 요소 수 $C_n^b$는 점점적으로 어떻게 행동하는가?
  • RQ2Ewens 샘플링 공식에 대한 포아송 과정 근사는 $n, \theta \to \infty$ 공동 점점적 영역으로 확장될 수 있는가?
  • RQ3다양한 스케일링 영역 하에서 $n, \theta \to \infty$ 조건 하에 정규화된 알레르기 분할 과정 $X_n(u)$의 기능 극한 행동은 어떠한가?
  • RQ4$ heta$가 $n$과 함께 증가할 때 정규화된 알레르기 수 과정이 $L^2(0,1)$에서 브라운 운동 극한으로 약한 수렴을 보이는가?
  • RQ5진짜 과정과 근사 과정 간의 총변동 거리가 0으로 수렴하는 조건은 무엇인가?

주요 결과

  • 스케일링 $ heta \sim c \log n$ 하에서 $n, \theta \to \infty$ 조건 하에 정규화된 알레르기 분할 과정 $X_n(u)$는 $L^2(0,1)$에서 $B(u)/\sqrt{u}$로 약한 수렴한다.
  • $n/\theta \to c > 0$인 경우, 과정 $X_n(u)$는 $B(u)/\sqrt{u}$로 약한 수렴하여 기능 중심극한정리를 확립한다.
  • $\theta^2/n \to 0$ 조건 하에 진짜 알레르기 수 과정과 그 포아송 근사 간의 총변동 거리는 0으로 수렴하여 근사 품질이 양호함을 보장한다.
  • 논문은 $\|X_n - P^\circ_5\|_{L^2} \to_p 0$를 증명하여 정규화된 과정이 브라운 운동 극한으로 수렴함을 확인한다.
  • $n^2/\theta \to c > 0$ 조건 하에 $X_n(u)$와 그 극한 간의 차이의 $L^2$-노름 수렴 속도는 $O(\theta^{-1/2})$로 제어된다.
  • $(\theta)_n / n!$의 점점적 전개가 $n^{\theta-1} \left(1 + \frac{\theta(\theta-1)}{2n} + O(\theta^4/n^2)\right)$로 유도되며, 이는 증명에서 모멘트 분석을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.