Skip to main content
QUICK REVIEW

[论文解读] Exact post-selection inference with the lasso

Jason D. Lee, Dennis L. Sun|arXiv (Cornell University)|Nov 25, 2013
Statistical Methods and Inference被引用 50
一句话总结

本文通过推导截断正态变量线性组合的非渐近分布,提出了一种用于套索回归的精确事后选择推断框架。该方法可实现对所选系数的诚实置信区间,并提供在全模型下具有精确Unif(0,1)分布的检验统计量,从而确保模型选择后的有效推断。

ABSTRACT

We develop a framework for post-selection inference with the lasso. At the core of our framework is a result that characterizes the exact (non-asymptotic) distribution of linear combinations/contrasts of truncated normal random variables. This result allows us to (i) obtain honest confidence intervals for the selected coefficients that account for the selection procedure, and (ii) devise a test statistic that has an exact (non-asymptotic) Unif(0,1) distribution when all relevant variables have been included in the model.

研究动机与目标

  • 解决使用套索进行变量选择后有效统计推断的挑战,因为这通常会导致估计偏差和无效的p值。
  • 开发一个框架,为所选系数提供精确(非渐近)推断,同时考虑选择过程的影响。
  • 推导一个在全模型下具有精确Unif(0,1)分布的检验统计量,以确保选择后的有效假设检验。
  • 构建考虑数据依赖性变量选择的所选系数的诚实置信区间。

提出的方法

  • 核心方法基于刻画截断正态随机变量线性组合的精确分布,这在套索事后选择推断中自然出现。
  • 该框架基于选择事件的条件推断,条件于套索解中观察到的活动变量集合。
  • 推导了给定选择事件下套索估计量的联合分布,从而实现对所选系数的精确推断。
  • 构建了一个枢轴检验统计量,当所有相关变量均包含在模型中时,其在原假设下具有精确Unif(0,1)分布。
  • 该方法可通过反演检验统计量构造具有精确覆盖概率的置信区间。

实验结果

研究问题

  • RQ1我们能否构建对套索所选系数的置信区间,使其在考虑选择偏差的情况下仍保持精确覆盖概率?
  • RQ2在套索选择后,是否可能推导出在全模型下具有精确Unif(0,1)分布的检验统计量?
  • RQ3当模型基于数据选择时,如何确保推断保持有效且诚实?
  • RQ4给定选择事件时,套索估计量的精确有限样本分布是什么?

主要发现

  • 本文推导了截断正态变量线性组合的精确非渐近分布,这是整个推断框架的基础。
  • 通过基于选择事件的条件推断,构建了所选系数的置信区间,其在有限样本中也具有精确覆盖概率。
  • 开发了一项检验统计量,当所有相关变量均包含在模型中时,其在原假设下具有精确Unif(0,1)分布。
  • 该方法通过考虑数据依赖性变量选择,实现了诚实推断,避免了标准事后选择推断带来的偏差。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。