QUICK REVIEW
[论文解读] Exact post-selection inference with the lasso
Jason D. Lee, Dennis L. Sun|arXiv (Cornell University)|Nov 25, 2013
Statistical Methods and Inference被引用 50
一句话总结
本文通过推导截断正态变量线性组合的非渐近分布,提出了一种用于套索回归的精确事后选择推断框架。该方法可实现对所选系数的诚实置信区间,并提供在全模型下具有精确Unif(0,1)分布的检验统计量,从而确保模型选择后的有效推断。
ABSTRACT
We develop a framework for post-selection inference with the lasso. At the core of our framework is a result that characterizes the exact (non-asymptotic) distribution of linear combinations/contrasts of truncated normal random variables. This result allows us to (i) obtain honest confidence intervals for the selected coefficients that account for the selection procedure, and (ii) devise a test statistic that has an exact (non-asymptotic) Unif(0,1) distribution when all relevant variables have been included in the model.
研究动机与目标
- 解决使用套索进行变量选择后有效统计推断的挑战,因为这通常会导致估计偏差和无效的p值。
- 开发一个框架,为所选系数提供精确(非渐近)推断,同时考虑选择过程的影响。
- 推导一个在全模型下具有精确Unif(0,1)分布的检验统计量,以确保选择后的有效假设检验。
- 构建考虑数据依赖性变量选择的所选系数的诚实置信区间。
提出的方法
- 核心方法基于刻画截断正态随机变量线性组合的精确分布,这在套索事后选择推断中自然出现。
- 该框架基于选择事件的条件推断,条件于套索解中观察到的活动变量集合。
- 推导了给定选择事件下套索估计量的联合分布,从而实现对所选系数的精确推断。
- 构建了一个枢轴检验统计量,当所有相关变量均包含在模型中时,其在原假设下具有精确Unif(0,1)分布。
- 该方法可通过反演检验统计量构造具有精确覆盖概率的置信区间。
实验结果
研究问题
- RQ1我们能否构建对套索所选系数的置信区间,使其在考虑选择偏差的情况下仍保持精确覆盖概率?
- RQ2在套索选择后,是否可能推导出在全模型下具有精确Unif(0,1)分布的检验统计量?
- RQ3当模型基于数据选择时,如何确保推断保持有效且诚实?
- RQ4给定选择事件时,套索估计量的精确有限样本分布是什么?
主要发现
- 本文推导了截断正态变量线性组合的精确非渐近分布,这是整个推断框架的基础。
- 通过基于选择事件的条件推断,构建了所选系数的置信区间,其在有限样本中也具有精确覆盖概率。
- 开发了一项检验统计量,当所有相关变量均包含在模型中时,其在原假设下具有精确Unif(0,1)分布。
- 该方法通过考虑数据依赖性变量选择,实现了诚实推断,避免了标准事后选择推断带来的偏差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。