Skip to main content
QUICK REVIEW

[论文解读] Online Debiasing for Adaptively Collected High-dimensional Data.

Yash Deshpande, Adel Javanmard|arXiv (Cornell University)|Nov 4, 2019
Gaussian Processes and Bayesian Inference被引用 4
一句话总结

本文提出在线去偏(online debiasing),一种新颖的程序,用于校正高维线性回归中因正则化和自适应数据收集而产生的双重偏差。当真实参数在 $ o(ar{p}/ar{n}) $ 阶稀疏时,该方法可在批量数据和时间序列数据设置下,通过最优尺寸的置信区间和p值实现有效的统计推断。

ABSTRACT

Adaptive collection of data is commonplace in applications throughout science and engineering. From the point of view of statistical inference however, adaptive data collection induces memory and correlation in the sample, and poses significant challenge. We consider the high-dimensional linear regression, where the sample is collected adaptively, and the sample size $n$ can be smaller than $p$, the number of covariates. In this setting, there are two distinct sources of bias: the first due to regularization imposed for consistent estimation, e.g. using the LASSO, and the second due to adaptivity in collecting the sample. We propose \emph{`online debiasing'}, a general procedure for estimators such as the LASSO, which addresses both sources of bias. In two concrete contexts $(i)$ batched data collection and $(ii)$ time series analysis, we demonstrate that online debiasing optimally debiases the LASSO estimate when the underlying parameter $ heta_0$ has sparsity of order $o(\sqrt{n}/\log p)$. In this regime, the debiased estimator can be used to compute $p$-values and confidence intervals of optimal size.

研究动机与目标

  • 解决在 $ n < p $ 情况下高维线性回归中正则化和自适应数据收集引起的双重偏差问题。
  • 开发一种通用程序,以在自适应采样下对诸如LASSO等估计器进行去偏。
  • 在高维、自适应采集数据的设置下,实现有效的统计推断,包括p值和置信区间。
  • 在两种具体场景下证明去偏估计器的最优性:批量数据收集和时间序列分析。

提出的方法

  • 提出在线去偏作为顺序校正方法,实时调整随新数据到达而更新的LASSO估计。
  • 采用一种在线梯度校正形式,以抵消正则化和自适应采样引入的偏差。
  • 在两种设置中应用该方法:(i) 带反馈回路的批量数据收集,(ii) 自适应采样的时间序列。
  • 推导出一个去偏估计器,在稀疏性条件下渐近地消除LASSO的偏差。
  • 采用基于鞅的分析方法,以处理自适应数据收集带来的记忆性和相关性。
  • 证明所得估计器渐近服从正态分布,且具有最优方差,从而支持统计推断。

实验结果

研究问题

  • RQ1我们能否在 $ n < p $ 的高维回归中同时校正正则化引起的偏差和自适应性引起的偏差?
  • RQ2在线去偏在带反馈回路的批量数据收集中表现如何?
  • RQ3在线去偏能否在自适应采样的时间序列中实现有效的统计推断(如p值和置信区间)?
  • RQ4何种稀疏性条件可确保去偏估计器在方差和覆盖概率方面的最优性?
  • RQ5在给定的稀疏性范围内,该在线去偏程序是否渐近正态且高效?

主要发现

  • 在线去偏成功地消除了高维线性回归中正则化引起的偏差和自适应性引起的偏差。
  • 在稀疏性条件 $ \|\theta_0\|_0 = o(\sqrt{n}/\log p) $ 下,去偏估计器实现渐近正态性,从而支持有效推断。
  • 在批量数据和时间序列两种场景下,该方法生成了最优尺寸的置信区间和p值。
  • 该方法在保持LASSO统计效率的同时,校正了自适应采样引入的偏差。
  • 由于采用自适应数据收集,该方法对样本的记忆性和相关性具有鲁棒性。
  • 理论分析证实,去偏估计器具有正确的渐近方差,从而确保最优的推断性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。