Skip to main content
QUICK REVIEW

[论文解读] Selective inference after cross-validation

Joshua R. Loftus|arXiv (Cornell University)|Nov 28, 2015
Statistical Methods and Inference参考文献 3被引用 19
一句话总结

本文提出了一种针对通过交叉验证选择的模型的可选推断框架,通过在模型选择过程中引入二次约束,实现对所选变量的有效假设检验。该方法即使在未知误差方差σ²的情况下,也能为通过交叉验证选择的Lasso和前向逐步模型中的系数提供有效的p值和置信区间,方法是通过截断零分布来对选择事件进行条件化处理。

ABSTRACT

This paper describes a method for performing inference on models chosen by cross-validation. When the test error being minimized in cross-validation is a residual sum of squares it can be written as a quadratic form. This allows us to apply the inference framework in Loftus et al. (2015) for models determined by quadratic constraints to the model that minimizes CV test error. Our only requirement on the model training pro- cedure is that its selection events are regions satisfying linear or quadratic constraints. This includes both Lasso and forward stepwise, which serve as our main examples throughout. We do not require knowledge of the error variance $σ^2$. The procedures described here are computationally intensive methods of selecting models adaptively and performing inference for the selected model. Implementations are available in an R package.

研究动机与目标

  • 开发一种在交叉验证模型选择后进行有效统计推断的方法,因为交叉验证被广泛使用,但此前缺乏正式的推断框架。
  • 将Loftus等人(2015)的可选推断框架扩展至基于交叉验证的模型选择程序,特别是当最小化残差平方和时。
  • 实现在通过交叉验证自适应选择模型复杂度的高维模型中,对所选系数的假设检验。
  • 提供一种计算量较大但理论有效的途径,可在模型选择偏差下保持第一类错误控制。
  • 支持Lasso和前向逐步回归的推断,且无需事先知道误差方差σ²。

提出的方法

  • 该方法将交叉验证选择事件建模为二次约束,从而可应用Loftus和Taylor(2015)的可选推断框架。
  • 通过将模型选择区域表示为涉及响应向量y的二次不等式的交集,为推断提供了可处理的几何结构。
  • 对于每个所选模型,通过条件化于选择事件并截断检验统计量(如t、χ²、F)的零分布至模型选择区域,来计算p值。
  • 该方法通过将Lasso和前向逐步的选择事件表达为二次约束,即使调参λ通过交叉验证选择,也能适用。
  • 通过使用选择性t检验或F检验,或通过基于交叉验证的方法估计σ,来处理未知的σ²。
  • 该框架已实现在R包中,支持使用平方误差损失进行K折交叉验证选择的模型的推断。

实验结果

研究问题

  • RQ1尽管模型复杂度是自适应选择的,是否仍可对通过交叉验证选择的回归系数进行有效的统计推断?
  • RQ2如何将可选推断框架扩展至依赖于交叉验证而非固定调参的模型选择程序?
  • RQ3未知误差方差σ²对交叉验证后推断的影响是什么,如何在可选推断框架中处理它?
  • RQ4当模型通过交叉验证选择时,该方法在有限样本中在多大程度上保持第一类错误控制和检验效能?
  • RQ5是否可以利用交叉验证选择事件的二次约束结构,为所选模型推导出精确的p值和置信区间?

主要发现

  • 模拟结果表明,该方法成功保持了对零系数的第一类错误控制,通过全局零假设下p值的经验累积分布函数得到验证。
  • 在存在真实非零系数的模拟中,该方法表现出合理的检验效能,真正非零系数的p值在零假设下分布良好且较小。
  • 该框架适用于Lasso和前向逐步回归,其模型选择事件可表示为对响应向量的二次约束。
  • 该方法无需知道σ²,可使用选择性t检验或F检验,或通过交叉验证获得的插值估计。
  • 由于二次选择区域的复杂几何结构,该方法计算量较大,尽管未来R包版本中计划进行优化。
  • 本文证明了通过残差平方和进行的交叉验证选择可被表示为二次约束,从而可应用现有的可选推断理论。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。