QUICK REVIEW

[论文解读] BETS: The dangers of selection bias in early analyses of the coronavirus disease (COVID-19) pandemic

Qingyuan Zhao, Nianqiao Ju|arXiv (Cornell University)|Apr 16, 2020

COVID-19 epidemiological studies参考文献 19被引用 4

一句话总结

本文提出BETS模型，一种生成模型，用于纠正早期新冠研究中的选择性偏差，通过建模四个关键流行病学事件：暴露开始、暴露结束、传播时间及症状出现时间。基于378例从武汉输出的病例，研究发现早期对疫情倍增时间的估计严重偏倚，真实倍增时间稳定在2至2.5天之间，且约5%的有症状病例可能在14天后才出现症状，男性症状出现速度明显快于女性。

ABSTRACT

The coronavirus disease 2019 (COVID-19) has quickly grown from a regional outbreak in Wuhan, China to a global pandemic. Early estimates of the epidemic growth and incubation period of COVID-19 may have been biased due to sample selection. Using detailed case reports from 14 locations in and outside mainland China, we obtained 378 Wuhan-exported cases who left Wuhan before an abrupt travel quarantine. We developed a generative model we call BETS for four key epidemiological events---Beginning of exposure, End of exposure, time of Transmission, and time of Symptom onset (BETS)---and derived explicit formulas to correct for the sample selection. We gave a detailed illustration of why some early and highly influential analyses of the COVID-19 pandemic were severely biased. All our analyses, regardless of which subsample and model were being used, point to an epidemic doubling time of 2 to 2.5 days during the early outbreak in Wuhan. A Bayesian nonparametric analysis further suggests that about 5% of the symptomatic cases may not develop symptoms within 14 days of infection and that men may be much more likely than women to develop symptoms within 2 days of infection.

研究动机与目标

识别并纠正早期关键研究中对新冠疫情增长速度和潜伏期估计的选择性偏差。
开发一种生成模型（BETS），明确考虑从武汉输出病例的采样机制。
提供一个正式的统计框架，以量化选择性偏差对关键流行病学参数的影响。
利用代表性的武汉输出病例样本，重新评估早期对倍增时间与潜伏期的估计。
探究潜伏期的性别差异，以及因采样偏差导致的长潜伏期被低估的可能性。

提出的方法

为四个关键事件（暴露开始、暴露结束、传播时间、症状出现时间）开发了生成模型（BETS）。
从基本原理出发推导出明确的似然函数，以纠正早期病例数据中的样本选择偏差。
使用378例在旅行禁令实施前离开武汉的病例数据集，以避免因封禁时间导致的选择性偏差。
采用贝叶斯非参数方法估计潜伏期分布，不假设特定参数形式。
通过多种子样本和建模假设进行敏感性分析，以确保结果的稳健性。
使用矩母函数将疫情增长速率与基本再生数R0关联，同时承认在序列间隔估计方面的局限性。

实验结果

研究问题

RQ1早期病例数据中的选择性偏差如何扭曲对新冠疫情倍增时间的估计？
RQ2由于从输出病例中采样，新冠潜伏期分布在多大程度上被低估？
RQ3潜伏期是否存在性别差异，其对早期检测与传播可能产生何种影响？
RQ4像BETS这样的生成模型能否仅利用输出病例数据纠正早期大流行数据的选择性偏差？
RQ5潜伏期的尾部行为真实情况如何，当前估计在多大程度上低估了长潜伏期病例？

主要发现

武汉早期疫情的倍增时间稳定估计为2至2.5天，与早期研究报道的6–7天形成鲜明对比。
所有分析结果，涵盖不同子样本与模型，均收敛于2–2.5天的倍增时间，表明对建模假设具有高度稳健性。
贝叶斯非参数分析表明，约5%的有症状病例可能在感染后至少14天才出现症状，挑战了‘97.5%的病例在11.5天内出现症状’的假设。
男性在感染后两天内出现症状的可能性显著高于女性，表明男性症状出现速度更快。
早期研究中使用的参数模型可能低估了潜伏期分布的尾部，导致隔离窗口设定过于乐观。
早期研究中的选择性偏差——尤其是来自输入病例的偏差——导致对疫情增长速度和潜伏期变异性的严重低估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。