Skip to main content
QUICK REVIEW

[論文レビュー] Exact post-selection inference with the lasso

Jason D. Lee, Dennis L. Sun|arXiv (Cornell University)|Nov 25, 2013
Statistical Methods and Inference被引用数 50
ひとこと要約

本稿では、切断正規分布変数の線形結合の非漸近的分布を導出することによって、lasso回帰における正確な選択後推論のフレームワークを提示する。これにより、選択された係数のための誠実な信頼区間が可能となり、全モデル下で正確なUnif(0,1)分布をとる検定統計量が得られ、モデル選択後の妥当な推論が保証される。

ABSTRACT

We develop a framework for post-selection inference with the lasso. At the core of our framework is a result that characterizes the exact (non-asymptotic) distribution of linear combinations/contrasts of truncated normal random variables. This result allows us to (i) obtain honest confidence intervals for the selected coefficients that account for the selection procedure, and (ii) devise a test statistic that has an exact (non-asymptotic) Unif(0,1) distribution when all relevant variables have been included in the model.

研究の動機と目的

  • lassoを用いた変数選択後の妥当な統計的推論を扱う挑戦に応えること。これはしばしば偏った推定値と無効なp値をもたらす。
  • 選択手順を考慮に入れた、選択された係数に対する正確(非漸近的)推論を提供するフレームワークを開発すること。
  • 全モデル下で正確なUnif(0,1)分布をとる検定統計量を導出することにより、選択後の妥当な仮説検定を保証すること。
  • データに依存する変数選択を反映した、選択された係数のための誠実な信頼区間を構築すること。

提案手法

  • コアとなる手法は、lasso選択後推論において自然に生じる、切断正規確率変数の線形結合の正確な分布を特定することに依拠している。
  • フレームワークは、選択イベントに基づく条件付き推論を用い、lasso解における観察された活性変数集合に条件づける。
  • 選択イベントを条件としたlasso推定量の同時分布を導出し、選択された係数に関する正確な推論を可能にする。
  • 帰無仮説下で正確なUnif(0,1)分布をとるピボット統計量が構築され、全変数がモデルに含まれる場合に有効である。
  • 検定統計量の逆変換により、正確な被覆確率を持つ信頼区間の構築が可能になる。

実験結果

リサーチクエスチョン

  • RQ1選択バイアスを考慮に入れ、有限標本でも正確な被覆確率を保つlassoで選択された係数のための信頼区間を構築できるか?
  • RQ2lasso選択後に、全モデル下で正確なUnif(0,1)分布をとる検定統計量を導出することは可能か?
  • RQ3データに基づいてモデルが選択される場合に、推論が正当かつ誠実に保たれるにはどうすればよいか?
  • RQ4選択イベントを条件としたlasso推定量の正確な有限標本分布は何か?

主な発見

  • 本稿では、すべての推論フレームワークを支える、切断正規分布変数の線形結合の正確な非漸近的分布が導出された。
  • 選択イベントに条件づけることで、有限標本においても正確な被覆確率を持つ、選択された係数のための信頼区間が構築された。
  • 帰無仮説下で正確なUnif(0,1)分布をとる検定統計量が開発され、全関連変数がモデルに含まれる場合に有効である。
  • データに依存する変数選択を考慮に入れることで、標準的な選択後推論がもたらすバイアスを回避し、誠実な推論が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。