Skip to main content
QUICK REVIEW

[论文解读] Statistical estimation of a growth-fragmentation model observed on a genealogical tree

Marie Doumic, Marc Hoffmann|arXiv (Cornell University)|Oct 11, 2012
Gene Regulatory Network Analysis参考文献 40被引用 82
一句话总结

本文提出了一种在观测到的系谱树上对生长-分裂模型中的分裂率 $ B(x) $ 进行非参数估计的方法,利用个体水平的数据(包括大小、出生时间与生长速率)。该方法在平方损失误差下实现了最优收敛速率 $ n^{-s/(2s+1)} $,通过直接利用系谱观测数据,优于以往依赖于平稳大小分布经验测量的间接估计方法。

ABSTRACT

We model the growth of a cell population by a piecewise deterministic Markov branching tree. Each cell splits into two offsprings at a division rate $B(x)$ that depends on its size $x$. The size of each cell grows exponentially in time, at a rate that varies for each individual. We show that the mean empirical measure of the model satisfies a growth-fragmentation type equation if structured in both size and growth rate as state variables. We construct a nonparametric estimator of the division rate $B(x)$ based on the observation of the population over different sampling schemes of size $n$ on the genealogical tree. Our estimator nearly achieves the rate $n^{-s/(2s+1)}$ in squared-loss error asymptotically. When the growth rate is assumed to be identical for every cell, we retrieve the classical growth-fragmentation model and our estimator improves on the rate $n^{-s/(2s+3)}$ obtained in \\cite{DHRR, DPZ} through indirect observation schemes. Our method is consistently tested numerically and implemented on {\\it Escherichia coli} data.

研究动机与目标

  • 开发一种用于生长-分裂过程中分裂率 $ B(x) $ 的统计估计器,其中个体呈指数增长,并以依赖于大小的速率分裂。
  • 通过利用系谱树上个体谱系的直接观测,改进现有依赖于平稳大小分布经验测量的间接估计方法。
  • 在二叉系谱树上,将确定性的生长-分裂方程与概率性的马尔可夫模型相结合,纳入个体生长速率的变异性。
  • 在 $ B(x) $ 的 Sobolev 正则性假设下,建立估计器的非渐近风险界,并在真实大肠杆菌数据上验证该方法。

提出的方法

  • 模型被表述为在二叉系谱树上的连续时间、确定性跳跃的马尔可夫分支过程,个体大小呈指数增长,并以速率 $ B(x) $ 分裂。
  • 估计器基于个体在出生时的大小、生命周期、出生时间以及谱系中的生长速率等观测数据构建。
  • 提出一种基于核的非参数估计器,带宽 $ h_n \sim n^{-1/(2s+1)} $,以平衡偏差与方差。
  • 通过局部鞅方法和矩不等式推导理论风险界,方差项中包含对数校正。
  • 该方法考虑了个体生长速率 $ \tau $ 的随机性,允许谱系间存在变异性。
  • 在模拟数据和真实大肠杆菌谱系数据上进行了数值验证,展示了方法的实际可行性与准确性。

实验结果

研究问题

  • RQ1能否从增长与分裂种群中个体谱系的直接观测中一致地估计分裂率 $ B(x) $?
  • RQ2当完整系谱树与个体水平数据均可观测时,$ B(x) $ 的非参数估计的最优收敛速率是什么?
  • RQ3在模型中引入个体生长速率 $ \tau $ 的变异性,对 $ B(x) $ 的统计估计有何影响?
  • RQ4所提出的估计器能否优于基于经验平稳大小分布的现有间接方法?
  • RQ5采样方案对估计器的收敛速率与鲁棒性有何影响?

主要发现

  • 在 $ B(x) $ 的 Sobolev 正则性 $ s $ 下,所提估计器在平方损失误差下达到最优收敛速率 $ n^{-s/(2s+1)} $,仅含对数因子。
  • 该速率优于以往通过间接观测平稳大小分布所获得的 $ n^{-s/(2s+3)} $ 速率。
  • 该方法在模拟数据与真实大肠杆菌谱系数据上均通过数值验证,表现出强劲的实证性能。
  • 估计器对个体生长速率 $ \tau $ 的变异性具有鲁棒性,这些变异性在模型中被处理为随机变量。
  • 理论风险界已建立,其显式依赖于样本量 $ n $、带宽 $ h_n $ 与正则性 $ s $。
  • 分析考虑了树结构,并采用基于局部鞅的方法控制系谱过程中跳跃过程的动态。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。