[論文レビュー] The allelic partition for coalescent point processes
本稿は、順序付き個体間の共通祖先時刻が同分布に従う遺伝的系統樹モデル(コalescent点過程)において、無限サイト変異モデル下でのアレル的分割を研究する。変異率が一定である条件下で、多様化部位数 $ S_n $ および異なるハプロタイプ数 $ A_n $ の正確な漸近的増加率を導出し、線形増加であり、明示的なレートを示す。また、臨界的出生死滅過程における変異およびハプロタイプ周辺分布が、それぞれ調和級数および対数級数則に従うことを確立する。
Assume that individuals alive at time $t$ in some population can be ranked in such a way that the coalescence times between consecutive individuals are i.i.d. The ranked sequence of these branches is called a coalescent point process. We have shown in a previous work that splitting trees are important instances of such populations. Here, individuals are given DNA sequences, and for a sample of $n$ DNA sequences belonging to distinct individuals, we consider the number $S_n$ of polymorphic sites (sites at which at least two sequences differ), and the number $A_n$ of distinct haplotypes (sequences differing at one site at least). It is standard to assume that mutations arrive at constant rate (on germ lines), and never hit the same site on the DNA sequence. We study the mutation pattern associated to coalescent point processes under this assumption. Here, $S_n$ and $A_n$ grow linearly as $n$ grows, with explicit rate. However, when the branch lengths have infinite expectation, $S_n$ grows more rapidly, e.g. as $n \ln(n)$ for critical birth--death processes. Then, we study the frequency spectrum of the sample, that is, the numbers of polymorphic sites/haplotypes carried by $k$ individuals in the sample. These numbers are shown to grow also linearly with sample size, and we provide simple explicit formulae for mutation frequencies and haplotype frequencies. For critical birth--death processes, mutation frequencies are given by the harmonic series and haplotype frequencies by Fisher logarithmic series.
研究の動機と目的
- コalescent点過程における多様化部位数 $ S_n $ および異なるハプロタイプ数 $ A_n $ の漸近的挙動を特定すること。
- サンプルサイズに応じた多様化部位およびハプロタイプの周辺分布の明示的公式を導出すること。
- 分割木の系統的構造と無限サイトモデル下での変異分布との関係を確立すること。
- 全枝長の期待値が無限大であるような状況(例:臨界的出生死滅過程)において、アレル的統計量のスケーリング極限を分析すること。
- 順序付けられた系統樹上で再生理論および点過程技法を用いて、アレル頻度の厳密な大数の法則を確立すること。
提案手法
- $ n $ 個の個体の系統樹を、順序付きリストにおける連続個体間の共通祖先時刻が同分布に従うコalescent点過程としてモデル化する。
- 分割木のジャンピング・コントゥアプロセスを用いて、枝長 $ H_i $ が同分布に従い、Lévy過程のスケール関数 $ W $ と関連することを示す。
- 無限サイトモデルを適用:変異は系統に沿って一定レートで発生し、同じ部位に再び発生しない。
- 生存関数を用いて、各系統に生じる変異数の分布を導出。この表現はスケール関数 $ W $ を介して記述される。
- 再生構造と再生理論を用いて、$ k $ 個の個体が持つ変異の頻度に強い大数の法則を適用する。
- 部分積分およびスケール関数 $ W $ のラプラス変換を用いて、$ k $ 個のコピーを持つ部位・ハプロタイプの期待数の正確な表現を導出する。
実験結果
リサーチクエスチョン
- RQ1全枝長の期待値が無限大であるコalescent点過程において、多様化部位数 $ S_n $ はサンプルサイズ $ n $ とともにどのように増加するか?
- RQ2サンプル内に $ k $ 個の個体が持つ変異の周辺分布の漸近的分布は何か?
- RQ3$ n $ に対して、$ k $ 個のコピーを持つ異なるハプロタイプ数の期待値はどのようにスケーリングされ、その正確な表現は何か?
- RQ4全枝長が重尾を持つ(例:臨界的出生死滅過程)ようなコalescent過程において、アレル的分割の極限的挙動はいかなるものか?
- RQ5基礎となるLévy過程のスケール関数を用いて、変異およびハプロタイプの周辺分布を閉形式で表現できるか?
主な発見
- 多様化部位数 $ S_n $ は $ n $ に対して線形に増加し、レートは $ \mathbb{E}[1 - e^{-\theta H}] $ である。ここで $ \theta $ は変異率、$ H $ は枝長分布である。
- 異なるハプロタイプ数 $ A_n $ は $ n $ に対して線形に増加し、レートは $ \mathbb{E}[1 - e^{-\theta H^\theta}] $ である。ここで $ H^\theta $ は $ H $ のサイズバイアス版である。
- 臨界的出生死滅過程では、変異周辺分布は調和級数に従う:$ k $ 個のコピーを持つ部位の期待数は $ \theta / k $ である。
- 同じプロセスにおいて、ハプロタイプ周辺分布はフィッシャーの対数級数に従う:$ k $ 個のコピーを持つハプロタイプの期待数は $ \theta / k $ である。
- 全枝長の期待値が無限大である場合、$ S_n $ は $ n \ln n $ のオーダーで増加し、アレル的多様性における相転移を示す。
- $ k $ 個の個体が持つ部位またはハプロタイプの漸近的頻度は、$ \sum_{j \geq 1} \mathbb{P}(N_j \geq k) $ で与えられる。ここで $ N_j $ は $ j $ 番目の系統から子孫をもつ個体数であり、この和はスケール関数 $ W_\theta $ を用いて表現される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。