[论文解读] P-values for high-dimensional regression
本文提出了一种高维线性回归的多分裂推理方法,通过在多个随机数据分割中聚合p值,实现渐近有效的家族错误率(FWER)和错误发现率(FDR)控制。通过整合多个分割的结果,该方法降低了对任意数据划分的敏感性,提高了统计功效,并显著减少了单分裂方法中的假发现数量。
Assigning significance in high-dimensional regression is challenging. Most computationally efficient selection algorithms cannot guard against inclusion of noise variables. Asymptotically valid p-values are not available. An exception is a recent proposal by Wasserman and Roeder (2008) which splits the data into two parts. The number of variables is then reduced to a manageable size using the first split, while classical variable selection techniques can be applied to the remaining variables, using the data from the second split. This yields asymptotic error control under minimal conditions. It involves, however, a one-time random split of the data. Results are sensitive to this arbitrary choice: it amounts to a `p-value lottery' and makes it difficult to reproduce results. Here, we show that inference across multiple random splits can be aggregated, while keeping asymptotic control over the inclusion of noise variables. We show that the resulting p-values can be used for control of both family-wise error (FWER) and false discovery rate (FDR). In addition, the proposed aggregation is shown to improve power while reducing the number of falsely selected variables substantially.
研究动机与目标
- 解决由于任意数据分割导致高维回归中p值不稳定且可重复性差的问题。
- 开发一种方法,在跨多个随机数据分割聚合结果的同时,保持渐近误差控制(FWER与FDR)。
- 相比单分裂方法,提高统计功效并降低错误发现率。
- 将Wasserman和Roeder(2008)的“筛选与清理”框架扩展至p ≫ n的高维设置下,实现有效的推断。
提出的方法
- 该方法对数据执行多次独立的随机分割,划分为训练集(样本内)和测试集(样本外)。
- 对于每个分割,对样本内数据应用筛选程序(例如Lasso),将预测变量数量减少到可管理的规模。
- 在样本外数据上,使用普通最小二乘法估计系数,并为所选变量计算p值。
- 通过分位数调整方法聚合每个分割的p值,以控制FWER与FDR。
- 采用基于自助法的校正来处理选择偏差,并确保聚合p值的渐近有效性。
- 最终的p值通过一个包含log(γ_min)的因子进行调整,以在多重检验下维持误差控制。
实验结果
研究问题
- RQ1在p ≫ n的高维回归设置中,是否能够可靠地计算p值,而传统推断方法会失效?
- RQ2如何在多个随机分割之间聚合数据分割结果,以提高可重复性并减少“p值彩票”效应?
- RQ3能否通过多分裂方法在高维回归中实现渐近FWER与FDR控制?
- RQ4与单分裂推断相比,多分裂方法是否能提高统计功效并降低错误发现率?
- RQ5在低维设置(n > p)下,该方法表现如何,特别是在预测变量之间存在高度相关性时?
主要发现
- 该多分裂方法在最小正则性条件下,实现了FWER与FDR的渐近控制。
- 与单分裂方法相比,该方法显著减少了错误选择的变量数量,提高了选择准确性。
- 由于在多个数据分割间聚合信息,统计功效得到提升。
- 即使预测变量数量p远超样本大小n,该方法仍能保持渐近有效性。
- 在n > p设置下,该方法保持竞争力,且在预测变量高度相关时通常优于经典误差控制方法。
- 理论分析表明,期望FDR被控制在α乘以调和级数和的范围内,从而在Benjamini-Hochberg程序下确保了FDR控制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。