[論文レビュー] Inference in High Dimensions with the Penalized Score Test
この論文は、高次元回帰における個々の予測子のp値と有意性検定を可能にする、罰則付きスコア検定を提案する。逐次的に、すべての予測子を除いたものに対して結果を回帰し、保持した予測子との残差相関を検定することで、l1およびl2罰則の両方において有効な推論が可能になる。lassoのスパarsityパターンは、検定に基づく選択決定と正確に一致する。
In recent years, there has been considerable theoretical development regarding variable selection consistency of penalized regression techniques, such as the lasso. However, there has been relatively little work on quantifying the uncertainty in these selection procedures. In this paper, we propose a new method for inference in high dimensions using a score test based on penalized regression. In this test, we perform penalized regression of an outcome on all but a single feature, and test for correlation of the residuals with the held-out feature. This procedure is applied to each feature in turn. Interestingly, when an $\ell_1$ penalty is used, the sparsity pattern of the lasso corresponds exactly to a decision based on the proposed test. Further, when an $\ell_2$ penalty is used, the test corresponds precisely to a score test in a mixed effects model, in which the effects of all but one feature are assumed to be random. We formulate the hypothesis being tested as a compromise between the null hypotheses tested in simple linear regression on each feature and in multiple linear regression on all features, and develop reference distributions for some well-known penalties. We also examine the behavior of the test on real and simulated data.
研究の動機と目的
- 高次元設定における変数選択のための形式的推論手法の欠如、特に個々の回帰係数のp値と信頼区間の欠如に対処する。
- ブートストラップやサブサンプリング、共分散検定といった既存手法の制限を克服する。これらは計算が高価であるか、非ゼロのlasso係数に限定される。
- lassoが選択しない予測子に対しても推論を可能にする統一的フレームワークを構築する。他の予測子を条件として、個々の予測子のマージナル有意性を検定する。
- 一般的な罰則(l1およびl2)の下で、検定統計量の理論的基準分布を確立し、有効な漸近的推論を保証する。
- 罰則付きスコア検定を既存のモデルと関連付ける。l1罰則はlassoに基づく選択に対応し、l2罰則は他の予測子の効果をランダム効果として扱う混合効果モデルに対応する。
提案手法
- 各予測子について、関心のある予測子を除いたすべての他の予測子に対する結果の罰則付き回帰を実行する。
- 保持した回帰からの残差と保持した予測子との間の相関として、スコア検定統計量を計算する。
- l1罰則を用いてスパarsityを誘導し、検定の決定ルールがlassoの変数選択パターンと正確に一致するようにする。
- l2罰則を用いて、検定統計量を他の予測子の効果をランダム効果として扱う混合効果モデルにおけるスコア統計量に対応させる。
- 正規性条件のもとで、検定統計量の漸近的帰無分布を導出する。帰無仮説の下で標準正規分布に収束することを示す。
- Lemmas A.3およびA.4を用いて理論的妥当性を確立する。これらは、Lindeberg-Feller中心極限定理およびモーメント条件に依存し、帰無仮説の下で検定統計量が正規極限に収束することを示す。
実験結果
リサーチクエスチョン
- RQ1lassoが選択する予測子に限定されず、すべての予測子に対して適用可能な、計算的に効率的で理論的根拠を持つp値計算手法を構築できるか?
- RQ2罰則付きスコア検定はlassoの変数選択パターンとどのように関係するか?また、lassoのスパarsityに対する形式的裏付けを提供するか?
- RQ3l1またはl2罰則を用いた場合、帰無仮説の下で検定統計量の漸近的分布は何か?
- RQ4罰則付きスコア検定は、高次元における単回帰と重回帰の推論の妥協として解釈できるか?
- RQ5有限標本における検定の性能は?シミュレーションおよび実データ(糖尿病データセット)において、正しい第1種過誤率を維持するか?
主な発見
- l1罰則を用いた罰則付きスコア検定は、検定統計量の棄却域がlassoの変数選択ルールと正確に一致する。これは、lassoのスパarsityに対する形式的裏付けを提供する。
- l2罰則の下では、検定統計量は、他のすべての予測子の係数をランダム効果として扱う混合効果モデルにおけるスコア統計量に対応する。
- 帰無仮説の下で、検定統計量は、Lindeberg条件が成り立ち、予測子の残差への影響が標本サイズに比べて小さくなる限り、漸近的に標準正規分布に従う。
- シミュレーションおよび糖尿病データセットを用いた実データ解析により、有限標本でも適切な第1種過誤率制御が維持されることを示した。
- 検定はlassoが選択しない予測子に対しても推論を可能にし、選択された特徴に限定される手法に比べ、変数の有意性に関するより包括的な理解を提供する。
- ブートストラップやサブサンプリングに比べ、計算が効率的であり、多くの既存の分散推定手法が直面するチューニングパrameter選択バイアスを回避する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。