[论文解读] A significance test for forward stepwise model selection
本文提出了一种用于前向逐步模型选择的显著性检验 $T\chi$,在全局零假设下即使在数据依赖的模型选择后也能提供精确的 p 值。通过在每一步迭代应用该检验并正交化残差,该方法实现了无需数据分割的有效推断,在选择具有相关性或分组变量的预测变量时,其控制第一类错误的能力优于传统的 $\chi^2$ 检验。
We apply the methods developed by Lockhart et al. (2013) and Taylor et al. (2013) on significance tests for penalized regression to forward stepwise model selection. A general framework for selection procedures described by quadratic inequalities includes a variant of forward stepwise with grouped variables, allowing us to handle categorical variables and factor models. We provide an algorithm to compute a new statistic with an exact null distribution conditional on the outcome of the model selection procedure. This new statistic, which we denote $Tχ$, has a truncated $χ$ distribution under the global null. We apply this test in forward stepwise iteratively on the residual after each step. The resulting method has the computational strengths of stepwise selection and addresses the problem of invalid test statistics due to model selection. We illustrate the flexibility of this method by applying it to several specialized applications of forward stepwise including a hierarchical interactions model and a recently described additive model that adaptively chooses between linear and nonlinear effects for each variable.
研究动机与目标
- 解决由于数据依赖的模型选择导致前向逐步回归中 p 值无效的问题。
- 开发一种计算高效的模型选择后显著性检验方法,同时保持第一类错误控制。
- 将选择后推断扩展至分组变量和层次模型(包括交互作用和加法模型)。
- 提供一种迭代显著性检验的框架,即使选择基于用于推断的同一数据,其结果依然有效。
- 展示该方法在控制噪声变量选择时的假发现率方面优于标准 $\chi^2$ 检验。
提出的方法
- 提出一种新的检验统计量 $T\chi$,在全局零假设下其分布为精确截断的 $\chi$ 分布,且条件于模型选择结果。
- 通过在每个前向步骤中将响应变量和预测变量相对于已选变量正交化,迭代地应用该检验。
- 基于二次不等式的一般框架处理分组变量和因子模型,实现对分类预测变量的推断。
- 采用条件分布方法,考虑选择过程的影响,避免使用数据分割或交叉验证。
- 借鉴 Lockhart 等人(2013)和 Taylor 等人(2013)的方法,将其扩展至前向逐步设置,并实现迭代选择。
- 采用基于 $T\chi$ p 值的停止规则,通过模拟和真实世界 HIV 药物耐药性数据集评估性能。
实验结果
研究问题
- RQ1能否构建一种显著性检验,使其在使用相同数据进行选择和推断后依然有效,即使在前向逐步模型选择之后?
- RQ2当选择噪声变量时,$T\chi$ 检验与标准 $\chi^2$ 检验相比,在控制第一类错误方面表现如何?
- RQ3该方法能否扩展以处理分组变量(如具有多个水平的分类预测变量)?
- RQ4在多个选择步骤中迭代应用全局零假设检验,是否能保持有效的 p 值?
- RQ5$T\chi$-基于的停止规则在识别真正相关预测变量的同时,最小化假发现的效率如何?
主要发现
- 在包含 10 个分类预测变量的模拟中,最后一个真实预测变量被选中后,$T\chi$ p 值正确上升,而 $\chi^2$ p 值保持反保守。
- $T\chi$ 检验对前两个真实预测变量(X1 和 X9)的 p 值为 0.00,正确识别其显著性。
- 计算前向逐步选择和 $T\chi$ p 值仅需 0.022 秒,而使用 M=200 的蒙特卡洛方法估计精确 p 值需 0.235 秒。
- 在 HIVdb PI 数据集中,$T\chi$-基于的停止规则为 X3TC 选择了 9 个变量,为 ABC 选择了 17 个,为 AZT 选择了 39 个,结果在不同药物间保持一致。
- 在包含成对交互作用的 Glinternet 模型中,该方法为 APV 选择了 29 个变量,为 ATV 选择了 14 个,成功捕获了具有生物学意义的交互作用。
- $T\chi$ p 值在最后一个真实预测变量之后呈随机更大(stochastically larger)于均匀分布,表明第一类错误控制得当,而 $\chi^2$ p 值则保持较小,不符合控制要求。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。