QUICK REVIEW

[论文解读] Exact post-selection inference with the lasso

Jason D. Lee, Dennis L. Sun|arXiv (Cornell University)|Nov 25, 2013

Statistical Methods and Inference被引用 50

一句话总结

本文通过推导截断正态变量线性组合的非渐近分布，提出了一种用于套索回归的精确事后选择推断框架。该方法可实现对所选系数的诚实置信区间，并提供在全模型下具有精确Unif(0,1)分布的检验统计量，从而确保模型选择后的有效推断。

ABSTRACT

We develop a framework for post-selection inference with the lasso. At the core of our framework is a result that characterizes the exact (non-asymptotic) distribution of linear combinations/contrasts of truncated normal random variables. This result allows us to (i) obtain honest confidence intervals for the selected coefficients that account for the selection procedure, and (ii) devise a test statistic that has an exact (non-asymptotic) Unif(0,1) distribution when all relevant variables have been included in the model.

研究动机与目标

解决使用套索进行变量选择后有效统计推断的挑战，因为这通常会导致估计偏差和无效的p值。
开发一个框架，为所选系数提供精确（非渐近）推断，同时考虑选择过程的影响。
推导一个在全模型下具有精确Unif(0,1)分布的检验统计量，以确保选择后的有效假设检验。
构建考虑数据依赖性变量选择的所选系数的诚实置信区间。

提出的方法

核心方法基于刻画截断正态随机变量线性组合的精确分布，这在套索事后选择推断中自然出现。
该框架基于选择事件的条件推断，条件于套索解中观察到的活动变量集合。
推导了给定选择事件下套索估计量的联合分布，从而实现对所选系数的精确推断。
构建了一个枢轴检验统计量，当所有相关变量均包含在模型中时，其在原假设下具有精确Unif(0,1)分布。
该方法可通过反演检验统计量构造具有精确覆盖概率的置信区间。

实验结果

研究问题

RQ1我们能否构建对套索所选系数的置信区间，使其在考虑选择偏差的情况下仍保持精确覆盖概率？
RQ2在套索选择后，是否可能推导出在全模型下具有精确Unif(0,1)分布的检验统计量？
RQ3当模型基于数据选择时，如何确保推断保持有效且诚实？
RQ4给定选择事件时，套索估计量的精确有限样本分布是什么？

主要发现

本文推导了截断正态变量线性组合的精确非渐近分布，这是整个推断框架的基础。
通过基于选择事件的条件推断，构建了所选系数的置信区间，其在有限样本中也具有精确覆盖概率。
开发了一项检验统计量，当所有相关变量均包含在模型中时，其在原假设下具有精确Unif(0,1)分布。
该方法通过考虑数据依赖性变量选择，实现了诚实推断，避免了标准事后选择推断带来的偏差。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。