Skip to main content
QUICK REVIEW

[论文解读] Selective inference in regression models with groups of variables

Joshua R. Loftus, Jonathan Taylor|arXiv (Cornell University)|Nov 4, 2015
Statistical Methods and Inference参考文献 5被引用 27
一句话总结

本文提出了一种针对分组变量回归模型的选择性推断框架,利用响应变量的二次型实现对所选组的精确显著性检验。在已知或未知方差条件下,通过截断的卡方或F分布提供精确p值,无需数据分割即可控制选择性第一类错误,并在R包中高效实现该方法,适用于基于分组的前向逐步选择。

ABSTRACT

We provide a general mathematical framework for selective inference with supervised model selection procedures characterized by quadratic forms in the outcome variable. Forward stepwise with groups of variables is an important special case as it allows models with categorical variables or factors. Models can be chosen by AIC, BIC, or a fixed number of steps. We provide an exact significance test for each group of variables in the selected model based on an appropriately truncated $χ$ or $F$ distribution for the cases of known and unknown $σ^2$ respectively. An efficient software implementation is available as a package in the R statistical programming language.

研究动机与目标

  • 解决使用前向逐步选择等数据驱动方法(如分组前向逐步)时回归模型中无效p值的问题。
  • 基于响应变量中的二次型,建立选择性推断的一般数学框架,扩展至仿射不等式之外的范围。
  • 在所选模型中实现对变量组的精确显著性检验,同时考虑模型选择偏差。
  • 通过使用全部数据进行选择和推断,避免数据分割带来的效率损失,保持检验的充分功效。
  • 通过R包支持实际应用,便于在具有结构化预测变量的高维回归中使用。

提出的方法

  • 将模型选择表述为响应变量中的二次不等式,通过二次型表征选择区域。
  • 通过条件化于选择事件,推导组检验统计量的精确零分布,将卡方或F分布截断至选择区域。
  • 利用截断分布计算最终模型中每个组的精确p值,控制选择性第一类错误。
  • 通过分别使用卡方和F分布,并进行适当截断,处理已知和未知误差方差的情况。
  • 利用组内正交性及尾部界 bounds(如 Laurent 和 Massart, 2000)推导零统计量的高概率上界,用于功效分析。
  • 在 selectiveInference R 包中高效实现该方法,支持基于分组的前向逐步选择及多种模型选择准则(AIC、BIC、固定步数)。

实验结果

研究问题

  • RQ1如何对通过前向逐步回归选择的变量组执行精确推断,同时考虑选择过程的影响?
  • RQ2当模型使用BIC等数据依赖准则选择时,测试组显著性的适当零分布是什么?
  • RQ3选择性推断能否超越单个变量扩展至组别,同时保持第一类错误控制并避免数据分割?
  • RQ4当存在模型选择偏差时,所提检验的功效与经典检验相比如何?
  • RQ5零假设下最大检验统计量的理论界是什么?这些界如何帮助识别非零组?

主要发现

  • 所提出的 Tχ 和 TF 检验通过条件化于模型选择事件,即使在自适应选择模型时,也能控制选择性第一类错误率。
  • 在加州县健康数据示例中,选择性p值(如伤害死亡率的p值为0.086)远大于朴素p值(<0.001),有效校正了选择偏差。
  • 在 n=100, p=100, G=50 个大小为2的组的模拟中,Tχ 检验保持了正确的尺寸,各步骤的实证功效在 0.315 至 0.641 之间。
  • 理论界表明,在50个大小为2的组中,零假设下的卡方统计量超过27.28的概率仅为1%,表明非零组极有可能被早期选中。
  • 在正交组下,该方法对1-稀疏替代假设渐近最优,其功效与Bonferroni校正相当,这是由高斯和卡方变量的尾部界决定的。
  • selectiveInference R 包使该方法可实际应用,支持通过AIC、BIC或固定步数进行模型选择,且适用于基于分组的预测变量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。