QUICK REVIEW

[論文レビュー] Exact Post Model Selection Inference for Marginal Screening

Jason D. Lee, Jonathan Taylor|arXiv (Cornell University)|Feb 23, 2014

Genetic and phenotypic traits in livestock参考文献 22被引用数 65

ひとこと要約

本稿は、高次元線形回帰におけるマージナルスクリーニングのための、選択後に正確な推論を行うフレームワークを導入する。選択条件付きのアプローチを用い、選択されたモデルのもとでの回帰係数の正確な条件付き分布を導出する。漸近的近似や制限的な設計行列の仮定に依存せず、有効な信頼区間と仮説検定を可能にし、大規模データセットに適した低コストな計算を実現する。

ABSTRACT

We develop a framework for post model selection inference, via marginal screening, in linear regression. At the core of this framework is a result that characterizes the exact distribution of linear functions of the response $y$, conditional on the model being selected (``condition on selection" framework). This allows us to construct valid confidence intervals and hypothesis tests for regression coefficients that account for the selection procedure. In contrast to recent work in high-dimensional statistics, our results are exact (non-asymptotic) and require no eigenvalue-like assumptions on the design matrix $X$. Furthermore, the computational cost of marginal regression, constructing confidence intervals and hypothesis testing is negligible compared to the cost of linear regression, thus making our methods particularly suitable for extremely large datasets. Although we focus on marginal screening to illustrate the applicability of the condition on selection framework, this framework is much more broadly applicable. We show how to apply the proposed framework to several other selection procedures including orthogonal matching pursuit, non-negative least squares, and marginal screening+Lasso.

研究の動機と目的

マージナルスクリーニングによるモデル選択後に標準的な信頼区間や仮説検定が選択によるバイアスの影響を受けて無効になるという重要な問題に対処する。
固有値条件や大標本近似に依存しない非漸近的フレームワークを構築し、選択後の有効な統計的推論を可能にする。
マージナルスクリーニングの単純さを活かし、特に超高次元データセットに適した計算効率の高い推論を実現する。
選択条件付きフレームワークをマージナルスクリーニングにとどまらず、OMP、Lasso、非負の最小二乗法などの他の選択手順へと拡張する。
モデル選択手順を考慮した正確な信頼区間とp値を構築する一般化手法を提供し、正しい被覆確率と第一種過誤の制御を保証する。

提案手法

『選択条件付き』フレームワークを形式化：特定のモデルが選択されたもとでの、応答変数 $ y $ の線形関数の正確な条件付き分布を導出する。
マージナルスクリーニングの選択イベントを、相関順序と符号条件に基づき、$ y $ に関する線形制約の集合 $ \{ y : A y \leq b \} $ として表現する。
切断正規分布に対する検定統計量を構築し、条件付きモデルのもとでの正確な推論を可能にする。
導出した条件付き分布を用いて、選択バイアスを補正した回帰係数の正確な信頼区間と仮説検定を構築する。
選択イベントの制約をそれぞれ導出し、直交マッチング Pursuit (OMP)、非負の最小二乗法 (NNLS)、マージナルスクリーニング + Lasso などの他の選択手順へとフレームワークを拡張する。
反復的または複雑なサンプリング手順を避けるために、線形代数と正規分布の条件付き分布のみに依存することで、計算効率を確保する。

実験結果

リサーチクエスチョン

RQ1マージナルスクリーニング後に漸近的近似に依存せずに、正確で有効な信頼区間と仮説検定を回帰係数に対して構築できるか？
RQ2マージナルスクリーニングの選択手順を、応答ベクトル $ y $ に関する制約の集合として形式的に特徴づけ、条件付き推論を可能にすることができるか？
RQ3選択条件付きフレームワークは、マージナルスクリーニングを越えて、OMP、NNLS、Lasso などの他のモデル選択手順へどの程度一般化可能か？
RQ4このフレームワークの計算コストは、標準的な選択後推論手法と比較してどの程度で、超高次元データにスケーラブルか？
RQ5設計行列 $ X $ が固有値の性質が悪い場合であっても、このフレームワークは選択バイアスを考慮に入れながら、正しい被覆確率と第一種過誤の制御を維持できるか？

主な発見

提案手法は、マージナルスクリーニング後の回帰係数に対して、被覆確率 $ 1 - \alpha $ を保証する正確な信頼区間と仮説検定を構築する。これは高次元設定下でも有効である。
このフレームワークは非漸近的であり、設計行列 $ X $ の固有値に関する仮定を必要とせず、$ X $ が悪条件または特異であっても適用可能である。
推論の計算コストは極めて低く、たった $ O(np) $ にとどまるため、Lasso や他の正則化手法が計算的に非現実的となる大規模データセットにおいても非常に効率的である。
選択条件付きフレームワークは、OMP、非負の最小二乗法、マージナルスクリーニング + Lasso に対しても成功裏に拡張可能であり、選択イベントが $ y $ に関する線形制約として表現可能で、すべてのケースで有効な推論を可能にする。
選択されたモデルに正確に条件づくことで、既存手法（例：POSI）の保守的すぎる性質を回避し、より検出力の高い仮説検定とより狭い信頼区間を実現する。
標本分割やサブサンプリングを用いずに、モデル選択後の正確な推論を可能にし、データ分割に伴う検出力の損失を避ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。