QUICK REVIEW

[論文レビュー] Exact Post-Selection Inference for Sequential Regression Procedures

Ryan J. Tibshirani, Jonathan Taylor|arXiv (Cornell University)|Jan 16, 2014

Statistical Methods and Inference参考文献 17被引用数 53

ひとこと要約

この論文は、前向きステップワイズ法、最小角度回帰（LAR）、lasso などの逐次回帰手順における正確な選択後仮説検定手法を導入する。選択イベントを応答ベクトル $ y $ に対する多面体的制約としてモデル化することで、条件付き推論を用いて有限標本における有効なp値と信頼区間を導出し、帰無仮説下での正確な第一種過誤制御を保証する。主な貢献は、モデル選択後の厳密な統計的推論を可能にするフレームワークであり、Rパッケージ selectiveInference に実装されている。

ABSTRACT

We propose new inference tools for forward stepwise regression, least angle regression, and the lasso. Assuming a Gaussian model for the observation vector y, we first describe a general scheme to perform valid inference after any selection event that can be characterized as y falling into a polyhedral set. This framework allows us to derive conditional (post-selection) hypothesis tests at any step of forward stepwise or least angle regression, or any step along the lasso regularization path, because, as it turns out, selection events for these procedures can be expressed as polyhedral constraints on y. The p-values associated with these tests are exactly uniform under the null distribution, in finite samples, yielding exact Type I error control. The tests can also be inverted to produce confidence intervals for appropriate underlying regression parameters. The R package selectiveInference, freely available on the CRAN repository, implements the new inference tools described in this article. Supplementary materials for this article are available online.

研究の動機と目的

グリーディな変数選択による逐次回帰手法におけるp値の無効性という問題に対処すること。
選択イベントを有限標本設定で考慮する、正確な選択後仮説検定の一般枠組みを構築すること。
前向きステップワイズ法、LAR、lasso におけるモデル選択後の回帰係数の有効なp値と信頼区間を提供すること。
線形モデルに限定されない範囲に選択後仮説検定の適用を拡張すること。予測子や真のモデルの線形性に関する強い仮定を必要としない。
実用的な統計解析に利用可能な、アクセスしやすいRパッケージでのフレームワークの実装すること。

提案手法

選択イベント（例：各ステップでどの変数が導入されたか）を応答ベクトル $ y $ に対する多面体的制約としてモデル化する。
選択ルールから導かれる特定の多面体集合内に $ y $ が存在することを条件とした条件付き推論を用いる。
全ステップ $ k $ までのアクティブ集合を条件として、正確な第一種過誤制御を保証する。
前向きステップワイズ法およびLARに対して、選択を条件とした検定統計量の分布に基づく切断正規（TG）検定統計量を導出する。
LAR用に計算効率の良いスパーシング検定を導入し、分散共分散検定と漸近的に同等であるが、有限標本有効性を有する。
設計行列 $ X $ や真のモデルが線形であるという仮定を必要とせず、ガウスノイズに限る。

実験結果

リサーチクエスチョン

RQ1グリーディな選択プロセスを考慮した場合、前向きステップワイズ回帰で選択された回帰係数に対して有効なp値を構築できるか？
RQ2選択イベントが $ y $ に対して多面体的であるとすると、LARおよびlassoにおけるモデル選択後の正確な推論はどのように行えるか？
RQ3モデル選択後の検定統計量の有限標本分布は何か？そして、その分布は第一種過誤をどのように制御できるか？
RQ4提案されたTG検定およびスパーシング検定は、分散共分散検定と比較して有効性および検出力の面でどのように異なるか？
RQ5本フレームワークは、研究で扱ったもの以外の逐次選択手順へも一般化可能か？

主な発見

提案された切断正規（TG）検定は、有限標本において帰無仮説下でp値が正確に一様分布に従うことを示し、前向きステップワイズ法およびLARにおける正確な第一種過誤制御を保証する。
前立腺がんデータの例では、ナーブなt検定が有意水準0.05で4つの変数を有意と判定したが、TG検定ではこれを2つに減少させ、選択バイアスを是正した。
LAR用のスパーシング検定は、Lockhartら（2014）の分散共分散検定と漸近的に同等であるが、有限標本有効性と分布の仮定なしに成立する。
前向きステップワイズ回帰のTG検定は、max-|t|-検定とは異なり、すべての過去の選択イベントを条件としているため、後続のステップで保守的バイアスが生じない。
本手法はRパッケージ selectiveInference として実装されており、CRANに公開されており、Python版も提供されている。
理論的結果として、正則性条件の下で、スパーシング検定のlog-p値はスケーリングされたカイ二乗分布に収束することが示され、分散共分散検定との漸近的同等性を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。