QUICK REVIEW

[论文解读] A Framework for Understanding Selection Bias in Real-World Healthcare Data

Ritoban Kundu, Xu Shi|arXiv (Cornell University)|Apr 10, 2023

Advanced Causal Inference Techniques被引用 3

一句话总结

本文提出一种基于有向无环图（DAG）的框架，用于诊断和校正真实世界医疗数据中的选择偏差，特别是来自电子健康记录（EHR）和生物样本库的数据。该研究引入了四种逆概率加权（IPW）方法及其方差公式，通过模拟研究和密歇根基因组计划（Michigan Genomics Initiative, MGI）的真实案例研究，证明这些方法在估计关联性（如生物性别与癌症之间的关联）时，相较于朴素分析和基于人群的SEER估计，能有效减少选择偏差。

ABSTRACT

Using administrative patient-care data such as Electronic Health Records (EHR) and medical/ pharmaceutical claims for population-based scientific research has become increasingly common. With vast sample sizes leading to very small standard errors, researchers need to pay more attention to potential biases in the estimates of association parameters of interest, specifically to biases that do not diminish with increasing sample size. Of these multiple sources of biases, in this paper, we focus on understanding selection bias. We present an analytic framework using directed acyclic graphs for guiding applied researchers to dissect how different sources of selection bias may affect estimates of the association between a binary outcome and an exposure (continuous or categorical) of interest. We consider four easy-to-implement weighting approaches to reduce selection bias with accompanying variance formulae. We demonstrate through a simulation study when they can rescue us in practice with analysis of real world data. We compare these methods using a data example where our goal is to estimate the well-known association of cancer and biological sex, using EHR from a longitudinal biorepository at the University of Michigan Healthcare system. We provide annotated R codes to implement these weighted methods with associated inference.

研究动机与目标

为应对大规模真实世界医疗数据中日益严重的选择偏差挑战，特别是在选择概率未知的非概率样本中。
开发一种实用且具有理论基础的框架，利用有向无环图（DAG）诊断和理解观察性EHR研究中选择偏差的来源。
提出四种可实施的逆概率加权（IPW）策略，并附带相应的方差估计方法，以减少关联性估计中的选择偏差。
通过模拟研究和密歇根基因组计划（MGI）的真实数据案例，评估这些方法的性能。
提供带注释的R代码和推断工具，使研究人员能够实际应用这些方法，提升后续分析的有效性。

提出的方法

使用有向无环图（DAG）对真实世界数据中的选择偏差机制进行建模和诊断，特别是在非概率样本中。
提出四种逆概率加权（IPW）方法：(1) 基于结果的加权，(2) 基于暴露的加权，(3) 联合暴露-结果加权，(4) 后分层加权。
为每种IPW方法推导出解析方差公式，以支持有效的统计推断和假设检验。
通过模拟研究评估每种方法在不同数据生成机制下的偏差减少性能。
将方法应用于密歇根基因组计划（MGI）的真实EHR数据集，估计生物性别与癌症之间关联性，并与SEER基于人群的估计结果进行比较。
在GitHub上提供开源R代码，实现所有四种IPW方法并支持正确推断，包括使用自助法进行方差估计。

实验结果

研究问题

RQ1如何利用因果图系统地诊断和理解真实世界医疗数据（特别是来自EHR和生物样本库）中的选择偏差？
RQ2四种不同的逆概率加权（IPW）方法在估计二元结果（如癌症）与暴露因素（如生物性别）之间的关联时，能在多大程度上减少选择偏差？
RQ3在选择机制复杂度和模型误设程度不同的模拟环境中，这些IPW方法表现如何？
RQ4在基于真实世界EHR的研究中，所提出的方法能否使估计值更接近真实总体关联（如SEER估计值）？
RQ5在大型非概率样本中忽略选择偏差的实际影响是什么？研究人员如何在常规分析中实施校正偏差的推断方法？

主要发现

模拟研究显示，与朴素分析相比，所有四种IPW方法均能减少选择偏差，其中联合暴露-结果加权和后分层加权在中等到高选择偏差条件下表现最佳。
在MGI数据案例中，朴素分析高估了生物性别与癌症之间的关联（优势比OR = 1.89），而SEER估计值为OR = 1.50，表明存在显著的选择偏差。
后分层IPW方法得到的校正后优势比为1.53，与SEER估计值高度一致，显示出有效的偏差校正能力。
联合暴露-结果IPW方法得到的校正后OR为1.51，同样与SEER参考值高度一致，表明在复杂选择机制下仍具稳健性。
通过自助法进行方差估计，获得了稳定的标准误，支持IPW方法的有效推断。
作者证明，在大样本中，选择偏差主导了均方误差，强调在大数据医疗研究中应优先考虑偏差减少，而非方差最小化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。