[논문 리뷰] The allelic partition for coalescent point processes
이 논문은 무한 사이트 돌연변이 모델 하에서, 순서가 매겨진 개인 간 공통 조상 시간이 i.i.d.인 공통 조상 점과정에서의 대립유전자 분할을 연구한다. 다형성 서열 수 $ S_n $ 과 고유한 허플로타입 수 $ A_n $ 에 대한 정확한 渐近적 성장률을 유도하며, 명시적인 성장률을 포함한 선형 성장이 있음을 보이고, 임계 탄생-죽음 과정에서 돌연변이 및 허플로타입 빈도 스펙트럼이 조화급수 및 로그급수 법칙을 따른다는 것을 입증한다.
Assume that individuals alive at time $t$ in some population can be ranked in such a way that the coalescence times between consecutive individuals are i.i.d. The ranked sequence of these branches is called a coalescent point process. We have shown in a previous work that splitting trees are important instances of such populations. Here, individuals are given DNA sequences, and for a sample of $n$ DNA sequences belonging to distinct individuals, we consider the number $S_n$ of polymorphic sites (sites at which at least two sequences differ), and the number $A_n$ of distinct haplotypes (sequences differing at one site at least). It is standard to assume that mutations arrive at constant rate (on germ lines), and never hit the same site on the DNA sequence. We study the mutation pattern associated to coalescent point processes under this assumption. Here, $S_n$ and $A_n$ grow linearly as $n$ grows, with explicit rate. However, when the branch lengths have infinite expectation, $S_n$ grows more rapidly, e.g. as $n \ln(n)$ for critical birth--death processes. Then, we study the frequency spectrum of the sample, that is, the numbers of polymorphic sites/haplotypes carried by $k$ individuals in the sample. These numbers are shown to grow also linearly with sample size, and we provide simple explicit formulae for mutation frequencies and haplotype frequencies. For critical birth--death processes, mutation frequencies are given by the harmonic series and haplotype frequencies by Fisher logarithmic series.
연구 동기 및 목표
- 고정된 돌연변이율 모델 하에서 공통 조상 점과정에서 다형성 서열 수 $ S_n $ 과 고유한 허플로타입 수 $ A_n $ 의 渐近적 행동을 규명하는 것.
- 표본 크기 전반에 걸쳐 다형성 서열 및 허플로타입의 빈도 스펙트럼에 대한 명시적 공식을 도출하는 것.
- 분열 수목의 유전적 구조와 무한 사이트 모델에서의 돌연변이 분포 간의 연결 고리를 설정하는 것.
- 총 분지 길이의 기대값이 무한한 경우, 예를 들어 임계 탄생-죽음 과정에서의 대립유전자 통계의 척도 근사값을 분석하는 것.
- 순서가 매겨진 유전체에서 재생 구조와 점과정 기법을 활용하여 대립유전자 빈도에 대한 엄밀한 대수의 법칙을 제공하는 것.
제안 방법
- n명의 개인의 유전체를 순서가 매겨진 리스트에서 연속적인 개인 간 공통 조상 시간이 i.i.d.인 랜덤 변수인 공통 조상 점과정으로 모델링한다.
- 분열 수목의 점프 경로 과정을 사용하여 분지 길이 $ H_i $ 가 i.i.d.임을 보이고, 레비 과정의 척도 함수 $ W $ 와 연결한다.
- 무한 사이트 모델을 적용: 돌연변이는 선형에서 일정한 비율로 발생하며, 동일한 서열에 두 번 이상 충격을 주지 않는다.
- 생존 함수를 통해 각 선형에서의 돌연변이 수의 분포를 유도하며, 이는 척도 함수 $ W $ 를 통해 표현된다.
- 재생 구조와 재생 이론을 활용하여 $ k $ 명의 개인이 지닌 돌연변이 빈도에 대한 강한 대수의 법칙을 적용한다.
- 부분적 적분과 척도 함수 $ W $ 의 라플라스 변환을 사용하여 $ k $ 개의 복제본을 지닌 서열/허플로타입의 기대 수에 대한 정확한 표현을 도출한다.
실험 결과
연구 질문
- RQ1공통 조상 점과정에서 총 분지 길이의 기대값이 무한한 경우, 다형성 서열 수 $ S_n $ 이 표본 크기 $ n $ 과 함께 어떻게 증가하는가?
- RQ2표본 내 $ k $ 명의 개인이 지닌 돌연변이의 빈도 스펙트럼의 渐近적 분포는 어떻게 되는가?
- RQ3$ n $ 과 함께 $ k $ 개의 복제본을 지닌 고유한 허플로타입의 기대 수는 어떻게 척도가 되며, 그 정확한 표현은 무엇인가?
- RQ4기저 공통 조상 과정이 무거운 尾을 지닌 분지 길이를 지닐 경우, 예를 들어 임계 탄생-죽음 과정에서 대립유전자 분할의 한계 행동은 어떻게 되는가?
- RQ5기저 레비 과정의 척도 함수를 사용하여 돌연변이 및 허플로타입의 빈도 스펙트럼을 닫힌 형태로 표현할 수 있는가?
주요 결과
- 다형성 서열 수 $ S_n $ 는 $ n $ 과 함께 선형적으로 증가하며, 비율은 $ \mathbb{E}[1 - e^{-\theta H}] $ 이다. 여기서 $ \theta $ 는 돌연변이율이고 $ H $ 는 분지 길이 분포이다.
- 고유한 허플로타입 수 $ A_n $ 는 $ n $ 과 함께 선형적으로 증가하며, 비율은 $ \mathbb{E}[1 - e^{-\theta H^\theta}] $ 이다. 여기서 $ H^\theta $ 는 $ H $ 의 크기 편향된 형태이다.
- 임계 탄생-죽음 과정에서는 돌연변이 빈도 스펙트럼이 조화급수를 따른다: $ k $ 개의 복제본을 지닌 서열의 기대 수는 $ \theta / k $ 이다.
- 동일한 과정에서 허플로타입 빈도 스펙트럼은 파이셔의 로그급수를 따른다: $ k $ 개의 복제본을 지닌 허플로타입의 기대 수는 $ \theta / k $ 이다.
- 총 분지 길이의 기대값이 무한한 경우, $ S_n $ 은 $ n \ln n $ 으로 증가하며, 이는 대립유전자 다양성에서의 단계 전이를 나타낸다.
- 특정 $ k $ 명의 개인이 지닌 서열 또는 허플로타입의 渐近적 빈도는 $ \sum_{j \geq 1} \mathbb{P}(N_j \geq k) $ 로 주어지며, 여기서 $ N_j $ 는 $ j $ 번째 선형에서 유래한 개인 수이며, 이 합은 척도 함수 $ W_\theta $ 를 통해 표현된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.