[论文解读] Some nonasymptotic results on resampling in high dimension, I: Confidence regions, II: Multiple tests
本文利用重采样方法,特别是广义自 resampling 和 Rademacher 权重,为高维数据开发了非渐近置信区域和多重假设检验程序。通过利用浓度不等式和重采样分位数,在一般依赖结构下,即使维度 K 远大于样本量 n,也能实现理论上有效的有限样本误差控制。
We study generalized bootstrap confidence regions for the mean of a random vector whose coordinates have an unknown dependency structure. The random vector is supposed to be either Gaussian or to have a symmetric and bounded distribution. The dimensionality of the vector can possibly be much larger than the number of observations and we focus on a nonasymptotic control of the confidence level, following ideas inspired by recent results in learning theory. We consider two approaches, the first based on a concentration principle (valid for a large class of resampling weights) and the second on a resampled quantile, specifically using Rademacher weights. Several intermediate results established in the approach based on concentration principles are of interest in their own right. We also discuss the question of accuracy when using Monte Carlo approximations of the resampled quantities.
研究动机与目标
- 在维度 K ≫ n 且依赖结构未知的情况下,为高维随机向量的均值开发非渐近置信区域。
- 避免对协方差结构的参数假设,特别是在传统多元正态推断因高维性而失效的场景中。
- 为高维设置下基于重采样推断提供理论基础坚实、有限样本有效的误差控制。
- 将重采样方法——特别是自 resampling 和 Rademacher 权重——扩展至具有强误差率控制(FWER)的多重检验。
- 分析蒙特卡洛近似对重采样统计量的影响,并提出实用且精确的实现方法。
提出的方法
- 使用独立同分布的重采样权重(如 Rademacher 或多项式权重)进行广义重采样,以估计中心化经验均值的抽样分布。
- 应用浓度不等式控制重采样统计量与其条件期望的偏离,确保非渐近覆盖。
- 通过从重采样分布中提取的 (1−α) 分位数定义数据依赖阈值,具体为 φ(Y−x) 的重采样分布的 (1−α) 分位数。
- 提出一种基于中心化重采样分位数的逐步下降多重检验程序,通过邦弗伦尼型校正调整阈值,以实现有限样本下的 FWER 控制。
- 提出一种混合算法,结合中心化与非中心化分位数,以在计算速度与准确性之间取得平衡。
- 分析蒙特卡洛近似对重采样阈值的影响,并提供由此产生的误差的理论界。
实验结果
研究问题
- RQ1在 K ≫ n 且依赖结构未知的高维设置下,重采样方法能否提供有效的非渐近置信区域?
- RQ2如何在不假设参数模型或独立性的情况下,使基于重采样的多重检验程序控制家族错误率(FWER)?
- RQ3在重采样前对数据进行中心化,对重采样阈值的有效性与性能有何影响?
- RQ4理论校正项(如邦弗伦尼校正)如何影响有限样本中基于重采样的推断的保守性?
- RQ5在实践中,能否可靠地使用重采样统计量的蒙特卡洛近似,同时保持理论误差控制?
主要发现
- 所提出的置信区域在一般对称性和有界性假设下,即使在 K ≫ n 时,也能实现非渐近的 (1−α) 覆盖率。
- 使用 Rademacher 权重可实现基于浓度的方法,从而在不依赖协方差结构参数假设的情况下,实现有效的有限样本误差控制。
- 基于中心化重采样分位数的逐步下降多重检验程序能非渐近地控制家族错误率(FWER),且在弱分布假设下具有理论保证。
- 模拟结果表明,当坐标间依赖较强时,基于重采样的阈值优于霍尔姆程序,表明其对依赖结构具有更好的自适应性。
- 结合中心化与非中心化分位数的混合算法在计算速度上接近非中心化方法,同时保留了中心化的理论优势。
- 理论分析确认,阈值中的余项是保守的,提示通过更紧的界可进一步提升有限样本性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。