Skip to main content
QUICK REVIEW

[论文解读] Bootstrapping and Sample Splitting For High-Dimensional, Assumption-Free Inference

Alessandro Rinaldo, Larry Wasserman|arXiv (Cornell University)|Nov 16, 2016
Statistical Methods and Inference参考文献 47被引用 23
一句话总结

本文提出了一种基于样本分割和自助法的高维回归假设自由推断方法,无需线性或稀疏性假设即可提供有效的置信区间。该方法引入了LOCO(剔除协变量)参数,其可解释性更强,且在真实模型设定错误时,估计精度高于标准回归系数。

ABSTRACT

Several new methods have been proposed for performing valid inference after model selection. An older method is sampling splitting: use part of the data for model selection and part for inference. In this paper we revisit sample splitting combined with the bootstrap (or the Normal approximation). We show that this leads to a simple, assumption-free approach to inference and we establish results on the accuracy of the method. In fact, we find new bounds on the accuracy of the bootstrap and the Normal approximation for general nonlinear parameters with increasing dimension which we then use to assess the accuracy of regression inference. We show that an alternative, called the image bootstrap, has higher coverage accuracy at the cost of more computation. We define new parameters that measure variable importance and that can be inferred with greater accuracy than the usual regression coefficients. There is a inference-prediction tradeoff: splitting increases the accuracy and robustness of inference but can decrease the accuracy of the predictions.

研究动机与目标

  • 开发一种在真实模型未知或非线性时,适用于高维回归的稳健、假设自由的推断框架。
  • 解决在弱建模假设下标准回归系数的局限性。
  • 提出新的可解释参数——LOCO参数,以更好地捕捉高维设定下的变量重要性。
  • 量化模型选择中预测精度与推断精度之间的权衡。
  • 建立高维设定下非线性参数的自助法和正态近似精度的新理论界。

提出的方法

  • 使用样本分割:将数据分为训练集和推断集,以分离模型选择与推断过程。
  • 对推断集上选定模型的参数估计使用自助法或正态近似,以获得有效的置信区间。
  • 将LOCO参数定义为每次剔除一个协变量时,最佳线性预测器的系数,从而提升可解释性和估计精度。
  • 建立高维设定下非线性泛函的自助法和正态近似精度的新非渐近界。
  • 使用图像自助法——一种计算成本较高但更精确的自助法变体——以提高覆盖率精度。
  • 通过预设的变量选择数量上限 $k$ 控制模型规模,确保在弱假设下的理论控制。

实验结果

研究问题

  • RQ1样本分割结合自助法是否能在高维回归中提供有效、假设自由的置信区间,而无需假设线性或稀疏性?
  • RQ2在高维、模型设定错误的模型中,自助法和正态近似在标准回归系数与LOCO参数上的精度表现如何比较?
  • RQ3使用样本分割时,预测精度与推断精度之间的权衡是什么?
  • RQ4能否定义出比标准回归系数更具可解释性且估计精度更高的新参数,尤其在弱建模假设下?
  • RQ5当维度增加时,自助法和正态近似在非线性参数上的精度理论界是什么?

主要发现

  • 该方法在最小假设下为高维回归提供了假设自由且稳健的置信区间,无需真实回归函数为线性。
  • 结果表明,LOCO参数的估计精度高于标准回归系数,尤其在模型线性设定错误时。
  • 在高维情况下,正态近似对标准回归系数的表现较差,但对LOCO参数表现良好。
  • 通过图像自助法可提高自助法的覆盖率精度,尽管计算成本较高。
  • 在无样本分割的情况下,投影参数的分布无法被一致估计,凸显了数据分割在有效推断中的必要性。
  • 建立了高维设定下非线性泛函的自助法和正态近似精度的新非渐近界,其显式速率依赖于维度和样本量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。