Skip to main content
QUICK REVIEW

[论文解读] Leveraging Random Assignment to Impute Missing Covariates in Causal Studies

Gauri Kamat, Jerome P. Reiter|arXiv (Cornell University)|Aug 4, 2019
Advanced Causal Inference Techniques参考文献 47被引用 4
一句话总结

本文研究了在随机化实验中,利用随机治疗分配信息对缺失协变量插补方法的影响。通过比较多重插补、回归插补和均值插补在设计阶段与结果阶段的插补策略,发现考虑随机化仅带来微小的准确性提升,而基于结果的插补方法通常表现更差,因偏差增加所致。

ABSTRACT

Baseline covariates in randomized experiments are often used in the estimation of treatment effects, for example, when estimating treatment effects within covariate-defined subgroups. In practice, however, covariate values may be missing for some data subjects. To handle missing values, analysts can use imputation methods to create completed datasets, from which they can estimate treatment effects. Common imputation methods include mean imputation, single imputation via regression, and multiple imputation. For each of these methods, we investigate the benefits of leveraging randomized treatment assignment in the imputation routines, that is, making use of the fact that the true covariate distributions are the same across treatment arms. We do so using simulation studies that compare the quality of inferences when we respect or disregard the randomization. We consider this question for imputation routines implemented using covariates only, and imputation routines implemented using the outcome variable. In either case, accounting for randomization offers only small gains in accuracy for our simulation scenarios. Our results also shed light on the performances of these different procedures for imputing missing covariates in randomized experiments when one seeks to estimate heterogeneous treatment effects.

研究动机与目标

  • 评估在缺失协变量的随机化实验中,将随机治疗分配纳入插补过程是否能提高估计准确性。
  • 在可忽略与不可忽略缺失机制下,比较设计阶段与结果阶段插补方法的性能。
  • 评估在尊重或忽略随机化的情况下,均值插补、回归插补与多重插补的相对优势。
  • 考察插补策略对异质性处理效应估计的影响。
  • 为在随机化条件下处理缺失协变量提供因果推断的最佳实践指导。

提出的方法

  • 在可忽略与不可忽略缺失机制下,模拟具有缺失协变量的随机化实验。
  • 实施四种多重插补策略:MI-R(设计阶段,尊重随机化)、MI-NR(设计阶段,忽略随机化)、MI-RY(结果阶段,尊重随机化)和 MI-NRY(结果阶段,忽略随机化)。
  • 应用单重插补方法:均值插补与回归插补,均包含与不包含结果变量。
  • 使用Rubin的多重插补框架,通过Rubin规则合并多个插补数据集的结果。
  • 通过是否包含交互项来估计处理效应,以评估异质性处理效应。
  • 使用偏差、方差、覆盖概率和平均置信区间长度评估性能。

实验结果

研究问题

  • RQ1在具有缺失协变量的随机化实验中,将随机化信息纳入插补过程是否能提高处理效应估计的准确性?
  • RQ2在估计异质性处理效应时,设计阶段与结果阶段插补方法在偏差、方差和覆盖概率方面如何比较?
  • RQ3在缺失协变量的插补模型中包含结果变量有何影响?
  • RQ4在协变量-结果关联程度不同及缺失机制变化时,不同插补方法(均值、回归、多重插补)的表现如何?
  • RQ5在何种条件下,尊重随机化的插补方法优于不尊重随机化的插补方法?

主要发现

  • 即使在中等规模实验中,将随机化信息纳入插补过程也仅带来微小的估计准确性提升。
  • 在插补模型中使用结果变量的多重插补方法(MI-RY 和 MI-NRY)相比设计阶段方法(MI-R 和 MI-NR)偏差更低但方差更高。
  • 设计阶段插补结合均值插补在样本量较大时能达到接近名义水平的覆盖概率,偏差适中,置信区间长度合理。
  • 基于结果的插补方法始终表现劣于设计阶段方法,尤其在协变量对结果具有强预测能力时偏差更高。
  • 当协变量-结果关联较弱时,所有MI方法均呈现低偏差,但MI-R与MI-NR的效率仍高于MI-RY与MI-NRY。
  • 在极端样本量(如每组100,000)下,MI-R与MI-NR存在持续偏差,其标准误无法弥补,导致覆盖概率远低于名义水平,而结果阶段方法保持更好的覆盖性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。