[论文解读] Hypothesis testing in non-sparse high-dimensional linear models
本文提出 CorrT,一种针对高维线性模型的稳健假设检验方法,在稀疏与密集设计下均保持有效性,即使违反稀疏性假设亦然。与现有方法不同,CorrT 在名义水平下控制第一类错误,并在稀疏、密集及混合模型中实现低第二类错误,模拟结果表明其具有最优性与优越性能。
In high-dimensional linear models, the sparsity assumption is typically made, stating that most of the parameters are equal to zero. Under the sparsity assumption, estimation and, recently, inference have been well studied. However, in practice, sparsity assumption is not checkable and more importantly is often violated; a large number of covariates might be expected to be associated with the response, indicating that possibly all, rather than just a few, parameters are non-zero. A natural example is a genome-wide gene expression profiling, where all genes are believed to affect a common disease marker. We show that existing inferential methods are sensitive to the sparsity assumption, and may, in turn, result in the severe lack of control of Type-I error. In this article, we propose a new inferential method, named CorrT, which is robust to model misspecification such as heteroscedasticity and lack of sparsity. CorrT is shown to have Type I error approaching the nominal level for extit{any} models and Type II error approaching zero for sparse and many dense models. In fact, CorrT is also shown to be optimal in a variety of frameworks: sparse, non-sparse and hybrid models where sparse and dense signals are mixed. Numerical experiments show a favorable performance of the CorrT test compared to the state-of-the-art methods.
研究动机与目标
- 解决现有高维推断方法依赖于不可验证的稀疏性假设这一关键局限性。
- 开发一种在稀疏性被违反时(如许多协变量影响响应变量的密集模型中)仍保持有效的假设检验程序。
- 在模型误设(包括异方差性和非稀疏参数结构)下确保第一类错误控制。
- 在各类模型类别中实现最优统计功效:稀疏、密集及混合模型(包含稀疏与密集信号混合)。
- 提供一种实用且稳健的替代方案,以应对当前方法在现实非稀疏高维场景下失效的问题。
提出的方法
- CorrT 引入一种新颖的检验统计量,可考虑协变量之间的相关性,并对误差结构中潜在的异方差性进行校正。
- 该方法采用去偏程序,即使在许多参数非零时也能校正高维回归系数中的估计偏差。
- 其采用协方差校正机制,确保在一般误差分布和弱依赖假设下推断的有效性。
- 检验统计量在原假设下渐近为枢轴量,从而无论模型稀疏性如何,均可实现精确的大小控制。
- CorrT 利用野生自助法或解析近似计算 p 值,确保对异方差性和非正态误差的鲁棒性。
- 该方法在极限下为分布自由,无需依赖稀疏性假设,即可在广泛范围的高维模型中保持有效性。
实验结果
研究问题
- RQ1当实际中稀疏性假设被违反时,现有高维推断方法的表现如何?
- RQ2是否存在一种假设检验程序,可在许多协变量真正有影响力的非稀疏模型中保持有效的第一类错误控制?
- RQ3是否存在一种方法,能在稀疏、密集及混合高维模型中均实现最优功效?
- RQ4在模型误设下,CorrT 与最先进方法相比,在第一类错误控制和统计功效方面表现如何?
- RQ5能否开发一种不依赖稀疏性假设但保持理论保证的稳健推断方法?
主要发现
- CorrT 在所有考虑的模型中(包括密集和非稀疏情形)均将第一类错误控制在名义水平,而现有方法在这些情形下失效。
- CorrT 的第二类错误在稀疏和密集模型中均趋近于零,表明其具有高统计功效。
- CorrT 在多种框架中均实现功效最优性,包括稀疏、非稀疏以及包含混合信号结构的混合模型。
- 数值实验表明,CorrT 在第一类错误控制和功效方面均优于最先进方法,尤其在模型误设条件下表现更优。
- 该方法对异方差性保持稳健,且无需对稀疏性做任何假设,适用于基因组关联研究等实际应用场景。
- CorrT 在不同样本量和维度范围下表现稳定,证实其在高维推断中的实际应用价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。