[论文解读] Model-assisted inference for treatment effects using regularized calibrated estimation with high-dimensional data
本文提出了一种用于高维观察性研究中平均处理效应推断的正则化校准估计方法,采用特别设计的损失函数的Lasso惩罚模型,实现双重稳健和模型辅助的置信区间。该方法即使在结果回归或倾向得分模型其中之一被错误设定时,也能确保有效的推断,在模拟和实证应用中表现优于标准的正则化最大似然方法。
Consider the problem of estimating average treatment effects when a large number of covariates are used to adjust for possible confounding through outcome regression and propensity score models. The conventional approach of model building and fitting iteratively can be difficult to implement, depending on ad hoc choices of what variables are included. In addition, uncertainty from the iterative process of model selection is complicated and often ignored in subsequent inference about treatment effects. We develop new methods and theory to obtain not only doubly robust point estimators for average treatment effects, which remain consistent if either the propensity score model or the outcome regression model is correctly specified, but also model-assisted confidence intervals, which are valid when the propensity score model is correctly specified but the outcome regression model may be misspecified. With a linear outcome model, the confidence intervals are doubly robust, that is, being also valid when the outcome model is correctly specified but the propensity score model may be misspecified. Our methods involve regularized calibrated estimators with Lasso penalties, but carefully chosen loss functions, for fitting propensity score and outcome regression models. We provide high-dimensional analysis to establish the desired properties of our methods under comparable conditions to previous results, which give valid confidence intervals when both the propensity score and outcome regression are correctly specified. We present a simulation study and an empirical application which confirm the advantages of the proposed methods compared with related methods based on regularized maximum likelihood estimation.
研究动机与目标
- 解决在存在大量协变量时估计平均处理效应的挑战,需对混杂因素进行调整。
- 克服传统建模方法的局限性,这些方法依赖迭代的、临时的变量选择过程,并忽略模型选择带来的不确定性。
- 开发一种即使在结果回归或倾向得分模型其中之一被错误设定时,也能生成有效置信区间的估计方法,确保推断的稳健性。
- 通过使用精心选择的损失函数的正则化估计,将双重稳健推断扩展至高维设置。
提出的方法
- 使用带有Lasso惩罚的正则化校准估计器拟合倾向得分模型,其中损失函数被特别设计以确保所需的渐近性质。
- 采用正则化加权似然估计器拟合结果回归模型,损失函数经定制以保持双重稳健性和模型辅助推断。
- 在结果模型的交叉验证过程中,固定正则化校准估计器中估计的倾向得分系数,以确保稳定性和一致性。
- 应用增强逆概率加权(AIPW)估计器,结合结果回归和倾向得分预测来估计平均处理效应。
- 实施交叉验证以选择调优参数,确保在高维设置下偏差与方差之间的最优平衡。
- 在稀疏性假设下推导理论性质,表明当倾向得分模型或结果模型其中之一被正确设定时,置信区间仍保持有效。
实验结果
研究问题
- RQ1正则化校准估计是否能改善在存在大量协变量的高维设置下对平均处理效应的推断?
- RQ2当结果回归或倾向得分模型其中之一被错误设定时,所提出的方法是否仍能保持有效的置信区间?
- RQ3与标准的正则化最大似然估计相比,正则化校准估计器在偏差、方差和覆盖概率方面的表现如何?
- RQ4该方法在高维稀疏性假设下能否实现双重稳健推断?
主要发现
- 所提出的方法实现了双重稳健的点估计,只要倾向得分或结果回归模型其中之一被正确设定,估计即保持一致。
- 当倾向得分模型正确时,置信区间为模型辅助且有效,即使结果回归模型被错误设定,反之亦然。
- 在 n=800 且 p=200 的模拟中,RCAL.RWL 方法在线性结果配置1中对90%置信区间的覆盖率达到83.7%,优于 RML.RML 的79.0%。
- 对于95%置信区间,RCAL.RWL 在配置1中达到91.2%的覆盖率,而 RML.RML 为85.9%,表明覆盖准确性的提升。
- 该方法在偏差方面更低,方差估计更高效,尤其在真实混杂因素结构复杂的情况下表现优于竞争方法。
- 实证结果证实,即使在模型设定错误时,该方法仍能保持有效的推断,尤其在结果模型错误但倾向得分模型正确时表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。