[论文解读] A linear noise approximation for stochastic epidemic models fit to partially observed incidence counts
本文提出了一种线性噪声近似(LNA)框架,用于将随机流行病模型拟合到部分观测的发病率数据,通过数据增广MCMC实现高效的贝叶斯推断。通过重新参数化模型并将LNA整合到非中心化参数化与椭圆切片采样器中,该方法在复杂高维场景(如埃博拉、流感和SARS-CoV-2疫情)下,相较于确定性常微分方程(ODE)和基于模拟的方法,在统计性能和计算效率方面均表现出更优表现。
Stochastic epidemic models (SEMs) fit to incidence data are critical to elucidating outbreak dynamics, shaping response strategies, and preparing for future epidemics. SEMs typically represent counts of individuals in discrete infection states using Markov jump processes (MJPs), but are computationally challenging as imperfect surveillance, lack of subject-level information, and temporal coarseness of the data obscure the true epidemic. Analytic integration over the latent epidemic process is impossible, and integration via Markov chain Monte Carlo (MCMC) is cumbersome due to the dimensionality and discreteness of the latent state space. Simulation-based computational approaches can address the intractability of the MJP likelihood, but are numerically fragile and prohibitively expensive for complex models. A linear noise approximation (LNA) that approximates the MJP transition density with a Gaussian density has been explored for analyzing prevalence data in large-population settings, but requires modification for analyzing incidence counts without assuming that the data are normally distributed. We demonstrate how to reparameterize SEMs to appropriately analyze incidence data, and fold the LNA into a data augmentation MCMC framework that outperforms deterministic methods, statistically, and simulation-based methods, computationally. Our framework is computationally robust when the model dynamics are complex and applies to a broad class of SEMs. We evaluate our method in simulations that reflect Ebola, influenza, and SARS-CoV-2 dynamics, and apply our method to national surveillance counts from the 2013--2015 West Africa Ebola outbreak.
研究动机与目标
- 解决由于潜在状态空间维度高和离散动力学导致的随机流行病模型(SEMs)在部分观测发病率数据上拟合的计算不可行性。
- 克服基于模拟的方法(如粒子MCMC)在复杂模型中计算成本高且脆弱的局限性。
- 将先前仅用于流行率数据的线性噪声近似(LNA)扩展至发病率数据,且无需假设正态性。
- 开发一种稳健、可扩展的贝叶斯推断框架,结合数据增广与非中心化参数化,用于具有复杂动力学的SEMs。
- 在模拟和真实疫情数据上评估该方法,包括2013–2015年西非埃博拉疫情。
提出的方法
- 重新参数化随机流行病模型(SEMs),直接建模发病率数据,避免在似然函数中假设正态性。
- 应用线性噪声近似(LNA)将马氏跳跃过程(MJP)的转移密度近似为高斯密度,从而实现似然函数的可计算性。
- 将LNA整合到数据增广MCMC框架中,并采用非中心化参数化以改善混合与收敛性。
- 使用椭圆切片采样器高效抽样高维潜在状态与模型参数的后验分布。
- 对初始仓室数量和有效种群大小的先验分布采用多变量正态近似,并基于确定性疫情规模关系进行信息引导。
- 通过反映埃博拉、流感和SARS-CoV-2动力学的模拟数据以及2013–2015年西非埃博拉疫情的真实发病率数据验证该方法。
实验结果
研究问题
- RQ1线性噪声近似(LNA)能否在不假设似然函数正态性的前提下,有效适配发病率数据建模?
- RQ2与确定性常微分方程(ODE)模型相比,所提出的基于LNA的数据增广MCMC框架在流行病推断中的统计准确性如何?
- RQ3在复杂流行病模型中,LNA方法是否在计算效率和鲁棒性方面优于基于模拟的方法(如粒子MCMC)?
- RQ4该方法在真实发病率数据上的表现如何,特别是在报告不足和监测精度有限的情境下?
- RQ5该框架能否推广至具有复杂动力学和潜在状态的广泛类随机流行病模型?
主要发现
- 基于LNA的数据增广MCMC框架在统计准确性上显著优于确定性ODE近似方法,尤其在捕捉疫情轨迹不确定性方面表现更优。
- 该方法在计算效率上可媲美ODE模型,同时保持了可靠推断疫情规模和持续时间所必需的随机性。
- 在反映埃博拉、流感和SARS-CoV-2动力学的模拟中,LNA框架产生的后验估计偏差更低,覆盖区间更优,优于基于ODE的方法。
- 在2013–2015年西非埃博拉疫情中,LNA模型成功捕捉了观测到的发病率模式,并准确估计了有效繁殖数和病例检测率等关键参数。
- 采用非中心化参数化与椭圆切片采样器显著改善了MCMC在高维潜在状态空间中的混合与收敛性能。
- 即使真实模型存在误设或监测数据稀疏,该框架仍表现出强鲁棒性,在计算成本与稳定性方面优于基于模拟的方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。