Skip to main content
QUICK REVIEW

[论文解读] Generative Bayesian modeling to nowcast the effective reproduction number from line list data with missing symptom onset dates

Adrian Lison, Sam Abbott|arXiv (Cornell University)|Aug 25, 2023
COVID-19 epidemiological studies参考文献 50被引用 4
一句话总结

本文提出了一种统一的生成式贝叶斯模型,能够从缺少症状发作日期和右删失报告延迟的不完整病例列表数据中,联合推断病例数和有效再生数(Rt)。通过将插补、截断调整和Rt估计整合到一个单一的层次化模型中,该方法减少了因不一致的平滑假设而产生的偏差,并实现了连贯的不确定性量化,在瑞士的合成数据和真实世界COVID-19数据中均优于传统的分步方法。

ABSTRACT

The time-varying effective reproduction number $R_t$ is a widely used indicator of transmission dynamics during infectious disease outbreaks. Timely estimates of $R_t$ can be obtained from observations close to the original date of infection, such as the date of symptom onset. However, these data often have missing information and are subject to right truncation. Previous methods have addressed these problems independently by first imputing missing onset dates, then adjusting truncated case counts, and finally estimating the effective reproduction number. This stepwise approach makes it difficult to propagate uncertainty and can introduce subtle biases during real-time estimation due to the continued impact of assumptions made in previous steps. In this work, we integrate imputation, truncation adjustment, and $R_t$ estimation into a single generative Bayesian model, allowing direct joint inference of case counts and $R_t$ from line list data with missing symptom onset dates. We then use this framework to compare the performance of nowcasting approaches with different stepwise and generative components on synthetic line list data for multiple outbreak scenarios and across different epidemic phases. We find that under long reporting delays, intermediate smoothing, as is common practice in stepwise approaches, can bias nowcasts of case counts and $R_t$, which is avoided in a joint generative approach due to shared regularization of all model components. On incomplete line list data, a fully generative approach enables the quantification of uncertainty due to missing onset dates without the need for an initial multiple imputation step. In a real-world comparison using hospitalization line list data from the COVID-19 pandemic in Switzerland, we observe the same qualitative differences between approaches. Our generative modeling components have been integrated into the R package epinowcast.

研究动机与目标

  • 解决传统分步预估方法分别处理缺失数据、报告延迟和Rt估计所导致的假设不一致和不确定性传播不良的问题。
  • 开发一种统一的生成式贝叶斯框架,联合建模缺失症状发作日期的插补、右截断调整和有效再生数(Rt)估计。
  • 在不同流行病阶段和报告延迟情景下,评估生成式方法相较于分步方法的性能表现。
  • 通过多种爆发情景下的合成数据和瑞士COVID-19疫情的真实住院数据,证明该方法的稳健性和准确性。
  • 通过将模型组件整合到R包epinowcast中,提供一种灵活且可解释的实时监测工具。

提出的方法

  • 构建一个层次化贝叶斯模型,从具有时变传播力、随机延迟和缺失数据机制的潜在感染过程中生成观测到的病例数据。
  • 使用生成过程建模症状发作日期、报告延迟和病例数的联合分布,从而实现对所有潜变量的完整后验推断。
  • 通过混合分布引入时变潜伏期和世代间隔,以反映病毒变异株的转变(例如瑞士的alpha变异株)。
  • 在插补、截断调整和Rt估计组件之间应用共享正则化,以避免分步流程中因平滑假设不一致而产生的偏差。
  • 采用马尔可夫链蒙特卡洛(MCMC)抽样获取病例数和Rt的后部分布,从而实现完整的不确定性量化。
  • 使用具有已知真实值的合成数据和瑞士的真实住院数据验证模型性能,并与基于EpiEstim和更新模型的分步方法进行比较。

实验结果

研究问题

  • RQ1在报告延迟较长且症状发作日期缺失的情况下,联合生成式建模方法是否相比分步方法能减少Rt预估的偏差?
  • RQ2在插补、截断调整和Rt估计之间共享正则化,如何影响不确定性量化和模型一致性?
  • RQ3与依赖多重插补的分步方法相比,生成式模型在不完整病例列表数据上的性能提升程度如何?
  • RQ4在具有时变延迟和流行病学参数(如瑞士SARS-CoV-2疫情波段期间)的真实场景中,生成式与分步方法的表现如何比较?
  • RQ5该生成式模型是否能在不同流行阶段(疫情前期、高峰期、后期)更准确地捕捉流行病动态,而不会引入平滑伪影?

主要发现

  • 在长报告延迟条件下,分步方法中的中间平滑处理在病例数和Rt预估中均引入了偏差,而联合生成式模型由于共享正则化避免了此类偏差。
  • 该生成式方法无需单独的多重插补步骤即可量化因症状发作日期缺失带来的不确定性,从而提升了计算效率和一致性。
  • 在合成数据中,该生成式模型在Rt预估的加权区间评分(WIS)上表现更优,尤其在峰值后一至两周的滞后阶段,表明其预测性能更佳。
  • 在真实世界的瑞士住院数据中,该生成式模型在报告延迟较高的时期产生了更稳定、更少偏差的Rt估计,优于分步方法。
  • 该模型在流行病各阶段均表现出稳健性,在瑞士COVID-19疫情的第一波和第二波期间表现一致,其中缺失发作日期的比例在16%至63%之间。
  • 该生成式建模组件已成功集成到R包epinowcast中,实现了该方法在实时传染病监测中的实际应用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。