QUICK REVIEW

[論文レビュー] Post-selection adaptive inference for Least Angle Regression and the Lasso

Jonathan Taylor, Richard Lockhart|arXiv (Cornell University)|Jan 16, 2014

Statistical Methods and Inference参考文献 1被引用数 36

ひとこと要約

この論文は、最小二乗回帰（LARS）およびラッソに対して、モデル選択後の正確な条件付き仮説検定と信頼区間を可能にする、後選択推論フレームワークを導入する。選択イベントをガウスノイズを持つ観測ベクトル y に対する多面体制約としてモデル化することで、有限標本において帰無仮説の下で p 値が一様分布に従うことを保証し、正確な第一種の誤りコントロールを達成する。

ABSTRACT

We propose new inference tools for forward stepwise regression, least angle regression, and the lasso. Assuming a Gaussian model for the observation vector y, we first describe a general scheme to perform valid inference after any selection event that can be characterized as y falling into a polyhedral set. This framework allows us to derive conditional (post-selection) hypothesis tests at any step of forward stepwise or least angle regression, or any step along the lasso regularization path, because, as it turns out, selection events for these procedures can be expressed as polyhedral constraints on y. The p-values associated with these tests are exactly uniform under the null distribution, in finite samples, yielding exact type I error control. The tests can also be inverted to produce confidence intervals for appropriate underlying regression parameters. The R package selectiveInference, freely available on the CRAN repository, implements the new inference tools described in this paper.

研究の動機と目的

前向きステップワイズ法、LARS、ラッソ回帰におけるモデル選択後の妥当な統計的推論を開発すること。
選択イベントがデータに依存する場合の条件付き推論の課題に取り組むこと。これは、標準的な頻度主義的仮定を破る。
後選択仮説検定における有限標本での正確な第一種の誤りコントロールを提供すること。
選択後の回帰係数の有効な信頼区間を構築すること。
R パッケージ selectiveInference を通じた実用的実装を可能にすること。

提案手法

選択イベント（LARS やラッソにおける変数の含め方など）を観測ベクトル y に対する多面体制約としてモデル化する。
y が多面体領域に含まれるという条件付き分布を用いて、検定統計量の正確な標本分布を導出する。
LARS やラッソにおける選択が、y が凸多面体に属することとして表現できることに依拠し、正確な推論を可能にする。
条件付き p 値は多面体領域における統合によって導出され、帰無仮説の下で一様性が保証される。
検定の逆転を用いて、選択されたパrameter の正確な信頼区間を構築できる。
この手法は、CRAN で入手可能な R パッケージ selectiveInference として実装され、実用的利用が可能である。

実験結果

リサーチクエスチョン

RQ1LARS やラッソにおける変数選択後の正確な後選択推論が可能か？
RQ2有限標本において、後選択検定からの p 値は帰無仮説の下で一様分布に従うか？
RQ3LARS やラッソによる選択後の回帰係数に対して有効な信頼区間を構築できるか？
RQ4これらの手順における選択イベントは、応答ベクトル y に対する多面体制約としてどのように特徴付けられるか？
RQ5データに依存するモデル選択後の正確な推論を可能にする計算的・統計的枠組みは何か？

主な発見

提案手法は、帰無仮説の下で p 値が正確に一様分布に従うことを実現し、有限標本における第一種の誤りコントロールを保証する。
LARS やラッソにおける選択イベントは、y が多面体集合に属することとして特徴付けられ、正確な推論を可能にする。
このフレームワークは、選択後の仮説検定と信頼区間の構築の両方をサポートする。
この手法は R パッケージ selectiveInference として実装されており、応用研究者にとって利用可能である。
モデルがテストに使用するデータと同じデータに基づいて選択された場合でも、有効な推論を提供する。これは、適応的推論における主要な課題を解決する。
このフレームワークは、y に対する多面体制約として表現可能な任意の選択手順に一般化可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。