QUICK REVIEW

[論文レビュー] Confidence Intervals and Hypothesis Testing for High-Dimensional Regression

Adel Javanmard, Andrea Montanari|arXiv (Cornell University)|Jun 13, 2013

Gene expression and cancer classification参考文献 48被引用数 689

ひとこと要約

本稿では、$ p > n $ の場合でも漸近的に有効な信頼区間とp値を構築できる、バイアス補正付きLASSO法を提案する。正則化M推定量のバイアスをデバイアス化手順で補正することで、設計行列に最小限の仮定を置いた状況下でも、ほぼ最適な信頼区間幅と検出力が達成可能となり、高次元設定における古典的推論を可能にする。

ABSTRACT

Fitting high-dimensional statistical models often requires the use of non-linear parameter estimation procedures. As a consequence, it is generally impossible to obtain an exact characterization of the probability distribution of the parameter estimates. This in turn implies that it is extremely challenging to quantify the \emph{uncertainty} associated with a certain parameter estimate. Concretely, no commonly accepted procedure exists for computing classical measures of uncertainty and statistical significance as confidence intervals or $p$-values for these models. We consider here high-dimensional linear regression problem, and propose an efficient algorithm for constructing confidence intervals and $p$-values. The resulting confidence intervals have nearly optimal size. When testing for the null hypothesis that a certain parameter is vanishing, our method has nearly optimal power. Our approach is based on constructing a `de-biased' version of regularized M-estimators. The new construction improves over recent work in the field in that it does not assume a special structure on the design matrix. We test our method on synthetic data and a high-throughput genomic data set about riboflavin production rate.

研究の動機と目的

高次元回帰モデル（$ p > n $）において、信頼区間やp値といった古典的推論ツールが不足している問題に対処すること。
非線形でバイアスを持つ推定量（例：LASSO）が正確な分布の特徴付けを困難にする根本的課題を克服すること。
設計行列に特別な構造を要しない、計算効率の良い頻度的推論を提供する手法を開発すること。
標準的な高次元一貫性条件の下で、ほぼ最適な信頼区間サイズと検出力を達成すること。
設計行列 $ \mathbf{X} $ に構造的制約を要しない最小限の仮定で、高次元設定における統計的推論を可能にすること。

提案手法

LASSO最適化問題の双対解を用いて、LASSO推定量 $ \widehat{\theta}^n $ を補正することで、デバイアス化推定量 $ \widehat{\theta}^u $ を構築する。
標本グラム行列 $ \widehat{\Sigma} = \mathbf{X}^T\mathbf{X}/n $ の逆行列を用いて、設計行列内の相関構造を反映する精度行列を構築する。
デバイアス化推定量を $ \widehat{\theta}^u = \widehat{\theta}^n + \frac{1}{n} \mathbf{X}^T (Y - \mathbf{X} \widehat{\theta}^n) $ と定義する。ここで補正項は $ \ell_1 $ ペナルティによって生じるバイアスを補正する。
双対解から導かれる行列 $ M $ を用いて、デバイアス化推定量の分散を $ \widehat{\sigma}^2 [M \widehat{\Sigma} M^T]_{ii} $ で推定する。
標準正規分布の分位点を用いて、$ \sqrt{n} (\widehat{\theta}^u_i - \theta_{0,i}) $ の漸近正規性を用いて個々の係数の信頼区間を構築する。
ボンフェローニ補正を用いて家族-wise 偽発見率（FWER）を制御するz統計量に基づく仮説検定を実施する。

実験結果

リサーチクエスチョン

RQ1非線形性を示す正則化推定量の存在下でも、$ p > n $ の高次元回帰モデルに対して有効な信頼区間とp値を構築できるか？
RQ2提案されたデバイアス化LASSO法は、設計行列に最小限の仮定を置いた状況下でも、ほぼ最適な信頼区間幅と検出力を達成するか？
RQ3設計行列 $ \mathbf{X} $ に特別な構造的仮定（例：非整合性や表現不能性）を必要とせずに、本手法を適用できるか？
RQ4ノイズや予測変数間の高相関が存在する有限標本下での性能はいかがなものか？
RQ5複数検定の場面において、家族-wise 偽発見率（FWER）が名目水準で制御されるか？

主な発見

デバイアス化LASSO推定量 $ \widehat{\theta}^u $ は、平均 $ \theta_0 $、分散 $ \sigma^2 (M \widehat{\Sigma} M^T)_{ii}/n $ の漸近正規分布に従い、有効な推論が可能である。
本手法はほぼ最適な信頼区間サイズを達成しており、幅は $ \sigma \sqrt{\log p / n} $ に比例し、高次元設定におけるミニマックスレートと一致する。
提案手法の検定 $ \widehat{T}^F $ の家族-wise 偽発見率（FWER）は、$ n \to \infty $ の下で、弱い仮定のもとでも名目水準 $ \alpha $ に収束する。
本手法は漸近的にFWERをレベル $ \alpha $ で制御でき、$ \limsup_{n \to \infty} \text{FWER}(\widehat{T}^F, n) \leq 2(1 - \Phi(z_\alpha(\varepsilon) - \varepsilon)) $ という上限を満たし、$ \varepsilon \to 0 $ のとき $ \alpha $ に近づく。
ノイズレベル $ \sigma $ の推定量 $ \widehat{\sigma} $ は一貫性を示す：標準的な高次元条件のもとで $ |\widehat{\sigma}/\sigma - 1| \to 0 $ が確率的に成立する。
本手法は、合成データおよび [BKM14] に掲載されたリボフラビン生産の実データセットを用いた実験により、高次元設定下での実用的有用性とロバストネスが検証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。