[论文解读] Selective inference for effect modification via the lasso
本文提出了一种两阶段选择性推断方法,用于效应修饰,利用套索(lasso)在数据驱动的模型选择后识别显著的治疗-协变量交互作用。通过应用罗宾逊变换(Robinson's transformation)解耦异质参数,并利用机器学习方法估计这些参数,该方法能够在高维设置下对所选效应修饰因子实现渐近有效的推断,相比单变量亚组分析可减少假阳性发现,同时保持可解释性。
Effect modification occurs when the effect of the treatment on an outcome varies according to the level of other covariates and often has important implications in decision making. When there are tens or hundreds of covariates, it becomes necessary to use the observed data to select a simpler model for effect modification and then make valid statistical inference. We propose a two stage procedure to solve this problem. First, we use Robinson's transformation to decouple the nuisance parameters from the treatment effect of interest and use machine learning algorithms to estimate the nuisance parameters. Next, after plugging in the estimates of the nuisance parameters, we use the Lasso to choose a low-complexity model for effect modification. Compared to a full model consisting of all the covariates, the selected model is much more interpretable. Compared to the univariate subgroup analyses, the selected model greatly reduces the number of false discoveries. We show that the conditional selective inference for the selected model is asymptotically valid given the rate assumptions in classical semiparametric regression. Extensive simulation studies are conducted to verify the asymptotic results and an epidemiological application is used to demonstrate the method.
研究动机与目标
- 为解决在存在数百个协变量时识别有意义效应修饰因子的挑战,避免单变量亚组分析带来的高假阳性发现率。
- 开发一种方法,使在使用套索选择低复杂度效应修饰模型后,能够实现有效的统计推断。
- 确保在高维、半参数回归设置下,当异质参数被估计时,选择性推断具有渐近有效性。
- 在高维协变量存在的情况下,降低模型复杂度,同时保持可解释性和统计推断的可信度。
提出的方法
- 应用罗宾逊变换(Robinson’s transformation)将治疗效应与异质参数解耦,从而在半参数框架下估计条件平均治疗效应(CATE)。
- 使用机器学习算法(例如随机森林、套索)非参数化估计异质函数 μy(x) 和 μt(x)。
- 将估计的异质函数代入变换后的模型,并应用套索从交互项中选择稀疏的效应修饰因子集合。
- 基于Taylor和Tibshirani(2015)的框架,对所选模型进行条件选择性推断,利用套索在高斯噪声下的精确枢轴统计量。
- 使用交叉拟合(cross-fitting)以减少余项中的偏差,但模拟结果显示,对于树基方法其性能可能下降。
- 在异质估计器收敛速率满足正则性条件的前提下,推导所选效应修饰因子的渐近有效置信区间。
实验结果
研究问题
- RQ1我们能否开发一种方法,在高维设置下实现数据驱动模型选择后对效应修饰进行有效的统计推断?
- RQ2在套索引入的选择偏差下,如何确保所选效应修饰因子的置信区间仍然有效?
- RQ3使用机器学习估计异质参数在多大程度上影响选择性推断的有效性与覆盖率?
- RQ4与单变量亚组分析相比,该方法在假阳性发现率和检测真实效应修饰因子的能力方面表现如何?
主要发现
- 在标准半参数正则性条件下,该方法即使在高维模型选择后,仍能对所选效应修饰因子实现渐近有效的选择性推断。
- 模拟研究证实,该方法能保持对加权平均治疗效应和所选效应修饰因子的正确覆盖率,相比单变量亚组分析可更有效地减少假阳性发现。
- 尽管交叉拟合在理论上是合理的,但其在随机森林中常因尾部分布预测偏差而降低性能,提示在使用树基方法时应谨慎实施。
- 当异质参数通过机器学习方法估计时,只要其收敛速率满足所需正则性条件,该方法仍保持稳健。
- 理论依据依赖于噪声的高斯假设,但通过Tian和Taylor(2018)提出的随机响应方法等扩展,渐近有效性预计可推广至非高斯误差情形。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。