Skip to main content
QUICK REVIEW

[論文レビュー] Online Debiasing for Adaptively Collected High-dimensional Data.

Yash Deshpande, Adel Javanmard|arXiv (Cornell University)|Nov 4, 2019
Gaussian Processes and Bayesian Inference被引用数 4
ひとこと要約

本稿では、適応的に収集されたデータを用いた高次元線形回帰における正則化由来および適応性由来のバイアスを是正する、オンライン・デバイアシングという新しい手順を導入する。真のパラメータが $ o(ar{p}/\log p) $ のスパarsityを満たす場合、最適なサイズの信頼区間およびp値を用いて有効な推論を可能にする。特に、バッチ化されたデータおよび時系列データの設定において有効である。

ABSTRACT

Adaptive collection of data is commonplace in applications throughout science and engineering. From the point of view of statistical inference however, adaptive data collection induces memory and correlation in the sample, and poses significant challenge. We consider the high-dimensional linear regression, where the sample is collected adaptively, and the sample size $n$ can be smaller than $p$, the number of covariates. In this setting, there are two distinct sources of bias: the first due to regularization imposed for consistent estimation, e.g. using the LASSO, and the second due to adaptivity in collecting the sample. We propose \emph{`online debiasing'}, a general procedure for estimators such as the LASSO, which addresses both sources of bias. In two concrete contexts $(i)$ batched data collection and $(ii)$ time series analysis, we demonstrate that online debiasing optimally debiases the LASSO estimate when the underlying parameter $ heta_0$ has sparsity of order $o(\sqrt{n}/\log p)$. In this regime, the debiased estimator can be used to compute $p$-values and confidence intervals of optimal size.

研究の動機と目的

  • 高次元線形回帰において $ n < p $ の下で、正則化と適応的データ収集の両方のバイアス源に対処すること。
  • 適応的サンプリング下でLASSOのような推定量をデバイアス化する一般的手法を開発すること。
  • 高次元的かつ適応的に収集されたデータの設定において、p値および信頼区間を含む有効な統計的推論を可能にすること。
  • バッチ化データ収集および時系列解析という2つの具体的な文脈において、デバイアス化推定量の最適性を示すこと。

提案手法

  • 新規データが到着するたびにLASSO推定量をリアルタイムで補正する逐次的補正手法として、オンライン・デバイアシングを提案する。
  • 正則化と適応的サンプリングの両方によって生じるバイアスを是正するため、オンライン勾配補正の形式を用いる。
  • 2つの設定に応用する:(i) フィードバックループを伴うバッチ化データ収集、(ii) 適応的サンプリングを伴う時系列。
  • スパarsity条​​件の下で、LASSOからのバイアスを漸近的に除去するデバイアス化推定量を導出する。
  • 適応的データ収集による記憶および相関を扱うために、マルティングルールに基づく解析を採用する。
  • 得られた推定量が漸近的に正規分布に従い、最適な分散を持つことを確立する。これにより、推論が可能になる。

実験結果

リサーチクエスチョン

  • RQ1高次元回帰において $ n < p $ の下で、正則化由来および適応性由来のバイアスを両方是正できるか?
  • RQ2フィードバックループを伴うバッチ化データ収集において、オンライン・デバイアシングはどのように機能するか?
  • RQ3適応的サンプリングを伴う時系列において、オンライン・デバイアシングは有効な推論(例:p値および信頼区間)を可能にするか?
  • RQ4分散とカバレッジの観点で、デバイアス化推定量の最適性を保証するスパarsity条​​件は何か?
  • RQ5与えられたスパarsityレジーム下で、オンライン・デバイアシング手順は漸近的に正規分布に従い、効率的か?

主な発見

  • オンライン・デバイアシングは、高次元線形回帰における正則化由来および適応性由来のバイアスを、両方とも効果的に是正した。
  • スパarsity条​​件 $ \|\theta_0\|_0 = o(\sqrt{n}/\log p) $ の下で、デバイアス化推定量は漸近的に正規分布に従い、有効な推論を可能にする。
  • バッチ化データおよび時系列の両設定において、最適なサイズの信頼区間およびp値が得られた。
  • 適応的サンプリングによって生じるバイアスを是正しつつ、LASSOの統計的効率性を維持した。
  • 適応的データ収集による記憶および相関に対しても、この手法はロバストである。
  • 理論的解析により、デバイアス化推定量が正しい漸近的分散を持つことが確認され、最適な推論性能が保証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。