Skip to main content
QUICK REVIEW

[論文レビュー] Great Expectations: EM Algorithms for Discretely Observed Linear Birth-Death-Immigration Processes

Charles R. Doss, Marc A. Suchard|arXiv (Cornell University)|Sep 5, 2010
Evolution and Genetic Dynamics参考文献 32被引用数 1
ひとこと要約

本稿では、離散的かつ不規則に観測された線形出生死滅移住過程のパラメータ推定のための2つの新規EMアルゴリズムを提案する。出生率または移住率が制約されている場合(ゼロまたは出生率に比例する)、ケネディの母関数を用いてEステップを1次元積分に簡略化し、高速かつ高精度な推定を可能にする。一般の場合には、有限状態のマーカフ連鎖に対する直接サンプリング手法を用いたモンテカルロEMアプローチを採用し、シミュレーションデータを用いた検証と、マイコバクテリウム・タービキュロシスにおける転移性要素のダイナミクスへの応用が行われた。

ABSTRACT

Abstract Estimating parameters of continuous-time linear birth-death-immigration processes, observed discretely at unevenly spaced time points, is a recurring theme in statistical analyses of population dynamics. Viewing this task as a missing data problem, we develop two novel expectation-maximization (EM) algorithms. When birth rate is zero or immigration rate is either zero or proportional to the birth rate, we use Kendall’s generating function method to reduce the E-step of the EM algorithm, as well as calculation of the Fisher information, to one dimensional integration. This reduction results in a simple and fast implementation of the EM algorithm. To tackle the unconstrained birth and immigration rates, we extend a direct sampler for finite-state Markov chains and use this sampling procedure to develop a Monte Carlo EM algorithm. We test our algorithms on simulated data and then use our new methods to explore the birth and death rates of a transposable element in the genome of Mycobacterium tuberculosis, the causative agent of tuberculosis.

研究の動機と目的

  • 観測が離散的かつ不規則な間隔である場合に、連続時間線形出生死滅移住過程のパラメータ推定の課題に対処すること。
  • パラメータ推定問題を、EMアルゴリズムの解法に適した欠損データ問題として定式化すること。
  • 出生率または移住率がゼロまたは比例関係にあるという特定の制約下で、ケネディの母関数法を用いて計算効率の高いEMアルゴリズムを開発すること。
  • 出生率と移住率が制約なしの一般ケースに対し、有限状態のマーカフ連鎖に対する直接サンプリング手法を用いたアプローチを拡張すること。
  • シミュレーションデータを用いた手法の妥当性検証と、マイコバクテリウム・タービキュロシスからの実際のゲノムデータへの応用。

提案手法

  • 観測時刻間の未観測プロセス経路を考慮して、出生率、死滅率、移住率の推定を欠損データ問題として定式化し、EMアルゴリズムを用いる。
  • 出生率がゼロ、または移住率がゼロまたは出生率に比例する場合に、ケネディの母関数を適用してEステップを1次元積分に簡略化し、計算を容易にする。
  • 同一の母関数アプローチを用いて、1次元積分によるFisher情報行列の効率的計算を実現する。
  • 一般の出生率と移住率が制約なしのケースに対し、有限状態の連続時間マーカフ連鎖に対する直接サンプリング手順を用いたモンテカルロEMアルゴリズムを実装する。
  • 反復的拒否ベースの直接サンプリング法により、観測点間の潜在的経路をサンプリングし、EMアルゴリズムにおけるEステップの確率的近似を可能にする。
  • 収束するまで、Eステップ(サンプル経路下での完全データの対数尤度の期待値)とMステップ(期待対数尤度の最大化)を繰り返し実行する。

実験結果

リサーチクエスチョン

  • RQ1出生率または移住率がゼロまたは出生率に比例する制約下で、EMアルゴリズムのEステップは簡略化可能か?
  • RQ2ケネディの母関数による1次元積分を活用することで、出生死滅移住過程におけるEM計算をどのように高速化できるか?
  • RQ3出生率と移住率が両方とも制約なしの場合に、Eステップに対する効果的なモンテカルロ近似戦略は何か?
  • RQ4不規則な観測間隔を持つシミュレーションデータにおいて、提案されたEMアルゴリズムの推定精度と計算速度はどの程度か?
  • RQ5提案手法は、マイコバクテリウム・タービキュロシスにおける実際のゲノムデータ(例:転移性要素の増殖)から有意義な生物学的ダイナミクスを検出できるか?

主な発見

  • ケネディの母関数を用いたEMアルゴリズムにより、Eステップが1次元積分に簡略化され、特定のレート制約下で計算効率が著しく向上した。
  • 同一の1次元積分を用いることで、Fisher情報行列を効率的に計算でき、標準誤差の推定が可能になった。
  • 有限状態のマーカフ連鎖に対する直接サンプリング手法を用いたモンテカルロEMアルゴリズムは、一般の出生率と移住率が制約なしのケースに対し、堅牢な解決策を提供した。
  • シミュレーションにより、提案されたアルゴリズムが、高速な収束性と低い計算オーバーヘッドを伴いながら、高精度なパラメータ推定を達成していることが示された。
  • マイコバクテリウム・タービキュロシスのデータへの応用から、ゲノム内における転移性要素のダイナミクスに、非自明な出生・死滅プロセスが関与している可能性が明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。