[论文解读] Inference in High Dimensions with the Penalized Score Test
本文提出了一种高维推断的惩罚得分检验方法,可为高维回归中的单个预测变量提供p值和显著性检验。通过依次将结果变量对除一个预测变量外的所有其他预测变量进行回归,并检验残差与被保留预测变量之间的相关性,该方法在l1和l2惩罚下均能提供有效的推断,且套索(lasso)的稀疏模式与基于检验的选择决策完全一致。
In recent years, there has been considerable theoretical development regarding variable selection consistency of penalized regression techniques, such as the lasso. However, there has been relatively little work on quantifying the uncertainty in these selection procedures. In this paper, we propose a new method for inference in high dimensions using a score test based on penalized regression. In this test, we perform penalized regression of an outcome on all but a single feature, and test for correlation of the residuals with the held-out feature. This procedure is applied to each feature in turn. Interestingly, when an $\ell_1$ penalty is used, the sparsity pattern of the lasso corresponds exactly to a decision based on the proposed test. Further, when an $\ell_2$ penalty is used, the test corresponds precisely to a score test in a mixed effects model, in which the effects of all but one feature are assumed to be random. We formulate the hypothesis being tested as a compromise between the null hypotheses tested in simple linear regression on each feature and in multiple linear regression on all features, and develop reference distributions for some well-known penalties. We also examine the behavior of the test on real and simulated data.
研究动机与目标
- 解决高维设置下变量选择缺乏正式推断方法的问题,特别是针对单个系数的p值与置信区间。
- 克服现有方法(如自助法、子采样法和协方差检验)的局限性,这些方法计算成本高或仅限于非零套索系数。
- 建立统一框架,使对所有预测变量(而不仅套索选择的变量)均可进行推断,通过在其他预测变量条件下检验边际显著性实现。
- 为常见惩罚(l1和l2)建立检验统计量的理论参考分布,确保有效的渐近推断。
- 将惩罚得分检验与现有模型关联:l1惩罚对应于基于套索的选择,而l2惩罚对应于具有其他预测变量随机效应的混合效应模型。
提出的方法
- 对每个预测变量,执行对所有其他预测变量的惩罚回归,将感兴趣的预测变量保留。
- 将得分检验统计量计算为保留回归的残差与保留预测变量之间的相关性。
- 使用l1惩罚以实现稀疏性,使得检验的决策规则与套索的变量选择模式完全一致。
- 使用l2惩罚将检验统计量与混合效应模型关联,其中除一个预测变量外的所有预测变量的系数被视为随机效应。
- 在正则性条件下推导检验统计量的渐近零分布,证明在原假设下其收敛于标准正态分布。
- 通过引理A.3和A.4建立理论有效性,表明在原假设下检验统计量收敛于正态极限,依赖于Lindeberg-Feller中心极限定理和矩条件。
实验结果
研究问题
- RQ1我们能否开发一种计算高效、理论基础坚实的高维回归p值计算方法,适用于所有预测变量,而不仅限于套索选择的变量?
- RQ2惩罚得分检验与套索的变量选择模式有何关系?它是否为套索稀疏性提供了正式的理论依据?
- RQ3在使用l1或l2惩罚时,检验统计量在原假设下的渐近分布是什么?
- RQ4惩罚得分检验是否可被解释为高维条件下简单回归与多重回归推断之间的折中?
- RQ5该检验在有限样本中的表现如何?在模拟和真实数据中是否能保持正确的第一类错误率?
主要发现
- 使用l1惩罚的惩罚得分检验所产生的检验统计量,其拒绝域与套索的变量选择规则完全一致,为套索稀疏性提供了正式的推断依据。
- 在l2惩罚下,检验统计量对应于一个混合效应模型中的得分统计量,其中除一个预测变量外的所有预测变量的系数被视为随机效应。
- 在原假设下,只要满足Lindeberg条件且预测变量对残差的影响相对于样本量逐渐减弱,检验统计量的渐近分布为标准正态分布。
- 该方法在有限样本中保持了有效的第一类错误控制,通过模拟和对糖尿病数据集的真实数据分析得到验证。
- 该检验可对所有预测变量进行推断,包括未被套索选中的变量,相较于仅限于选定特征的方法,提供了更全面的变量显著性理解。
- 与自助法和子采样法相比,该框架计算效率更高,并避免了现有许多方差估计方法中常见的调参选择偏差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。