[论文解读] A statistical model of COVID-19 testing in populations: effects of sampling bias and testing errors
本文提出了一种统计模型,用于校正COVID-19流行率估计中的假阳性、假阴性和测试偏差。通过建模具有误差率和抽样偏差的二元检测结果,该框架能够基于现实世界检测数据,实现对真实感染流行率和病死率的极大似然估计,揭示了由于偏差和误差导致官方病例报告存在显著扭曲。
We develop a statistical model for the testing of disease prevalence in a population. The model assumes a binary test result, positive or negative, but allows for biases in sample selection and both type I (false positive) and type II (false negative) testing errors. Our model also incorporates multiple test types and is able to distinguish between retesting and exclusion after testing. Our quantitative framework allows us to directly interpret testing results as a function of errors and biases. By applying our testing model to COVID-19 testing data and actual case data from specific jurisdictions, we are able to estimate and provide uncertainty quantification of indices that are crucial in a pandemic, such as disease prevalence and fatality ratios. This article is part of the theme issue 'Data science approach to infectious disease surveillance'.
研究动机与目标
- 解决在COVID-19大流行期间,由于检测偏差和不准确导致真实疾病流行率估计困难的关键挑战。
- 量化假阳性率(FPR)和假阴性率(FNR)对报告病例数和监测指标的影响。
- 校正检测中的抽样偏差,特别是临床症状明显或高风险个体在官方病例数据中过度代表的问题。
- 通过校正检测偏差和检测误差,估计真正的感染病死率(IFR)。
- 提供一种可推广的框架,适用于任何具有二元检测结果和已知误差率的传染病。
提出的方法
- 开发一种针对二元检测结果(阳性/阴性)的统计模型,指定假阳性率(FPR)和假阴性率(FNR)。
- 引入一个检测偏差参数 b,以建模对感染个体(b > 0)或易感个体(b < 0)的偏好性检测。
- 使用极大似然估计(MLE)从观测到的检测数据中推断真实感染比例 f 和偏差参数 b。
- 推导出一个校正后的阳性率函数 µ(f, b, FPR, FNR),将观测到的检测结果映射到真实的潜在流行率。
- 将该模型应用于德国冈格尔特的真实数据,使用随机抽样血清学检测和PCR检测作为金标准。
- 利用无偏抽样(f = 15.53%)与有偏官方报告(fb = 10%)之间的差异,估计偏差(b = -0.50)。
实验结果
研究问题
- RQ1假阳性和假阴性检测误差在现实数据中如何扭曲报告的病例流行率?
- RQ2对有症状或高风险个体的优先检测在多大程度上导致报告感染率的偏差?
- RQ3统计模型能否同时校正检测误差和抽样偏差,以估计真实的感染流行率?
- RQ4检测偏差和误差率如何影响从官方病例和死亡数据中对感染病死率(IFR)的估计?
- RQ5检测偏差对实时流行病学监测指标的可靠性有何影响?
主要发现
- 该模型在北莱茵-威斯特法伦州估计出的检测偏差为 b = -0.50,表明官方检测数据中感染个体被显著过度代表,可能由于冈格尔特是疫情热点地区。
- 利用无偏抽样数据(f = 15.53%),该模型将官方报告的阳性率10%校正为真实潜在流行率为15.53%。
- 在考虑偏差校正后,感染病死率(IFR)估计为0.36%(95%置信区间:0.29%–0.45%),而若忽略偏差,可能得到具有误导性的观测IFR。
- 若偏倚阳性率为20%,则估计的检测偏差为 b = 0.31,表明该模型对数据输入具有高度敏感性。
- 该模型表明,阳性检测偏差(b > 0)会导致真实IFR被低估,而负偏差(b < 0)则会使其被高估,凸显了偏差校正的必要性。
- 该框架能够对关键流行病学指标(如流行率和IFR)进行不确定性量化,从而提高公共卫生决策的可靠性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。