QUICK REVIEW

[論文レビュー] Selective Sequential Model Selection

William Fithian, Jonathan Taylor|arXiv (Cornell University)|Dec 8, 2015

Machine Learning and Algorithms参考文献 28被引用数 40

ひとこと要約

本論文は、逐次的モデル選択パス（例えば前向きステップワイズ回帰やlasso）におけるデータに依存するモデル選択を考慮した、有効なp値を各ステップで構築するフレームワークを提案する。選択的max-t検定と次入力検定を導入し、帰無仮説の下で独立で一様分布に従うp値を生成することで、強力な誤り率保証を持つFDR制御の逐次停止ルールの利用を可能にする。

ABSTRACT

Many model selection algorithms produce a path of fits specifying a sequence of increasingly complex models. Given such a sequence and the data used to produce them, we consider the problem of choosing the least complex model that is not falsified by the data. Extending the selected-model tests of Fithian et al. (2014), we construct p-values for each step in the path which account for the adaptive selection of the model path using the data. In the case of linear regression, we propose two specific tests, the max-t test for forward stepwise regression (generalizing a proposal of Buja and Brown (2014)), and the next-entry test for the lasso. These tests improve on the power of the saturated-model test of Tibshirani et al. (2014), sometimes dramatically. In addition, our framework extends beyond linear regression to a much more general class of parametric and nonparametric model selection problems. To select a model, we can feed our single-step p-values as inputs into sequential stopping rules such as those proposed by G'Sell et al. (2013) and Li and Barber (2015), achieving control of the familywise error rate or false discovery rate (FDR) as desired. The FDR-controlling rules require the null p-values to be independent of each other and of the non-null p-values, a condition not satisfied by the saturated-model p-values of Tibshirani et al. (2014). We derive intuitive and general sufficient conditions for independence, and show that our proposed constructions yield independent p-values.

研究の動機と目的

逐次的に複雑さが増すモデルパスにおける、適応的モデル選択後の有効な統計的推論の課題に対処すること。
データに依存するモデルパス選択を考慮したp値の開発により、選択バイアスが存在しても第1種誤り率の制御を保証すること。
独立なp値を必要とするFDR制御の逐次停止ルール（例：ForwardStop、Li-Barber）の利用を可能にすること。これは、従来の飽和モデルp値では満たされない条件である。
線形モデルを超えて一般のパラメトリックおよびノンパラメトリック設定（例：チェンジポイント検出）へとフレームワークを拡張すること。
FDR制御の逐次設定において必要となる、逐次停止ルールに用いられるp値が帰無仮説の下で独立であることの保証

提案手法

選択イベントに条件づけた条件付き推論を用いて、十分統計量とモデルパスの履歴に条件づけた選択的p値を構築する。
前向きステップワイズ回帰に対して、選択的max-t検定を提案し、選択されたモデルパスを条件とした最大t統計量の条件付き分布に基づくp値を計算する。
lassoに対しては、次入力検定を導入し、条件付き帰無分布の下で次にモデルに組み込まれる変数の有意性を評価する。
選択イベントと検定統計量が各ステップで条件付き独立となるような条件を導出し、帰無仮説の下でのp値の独立性を保証する。
ノンパラメトリックなチェンジポイント検出に応用するため、2標本検定統計量に基づいてチェンジポイントを逐次追加するグリーディパスアルゴリズムを定義し、p値はパーミュテーションサンプリングから導出する。
再サンプリング（パーミュテーションまたはMCMC）を用いて、条件付き帰無仮説の下での正確なp値を計算し、モデル選択下でも一様性と有効性を保証する。

実験結果

リサーチクエスチョン

RQ1データに依存するモデル系列の選択を考慮した、適応的モデルパスの各ステップで有効なp値を構築できるか？
RQ2提案されたp値は、ForwardStop や Li-Barber のようなFDR制御の逐次停止ルールに必要な独立性条件を満たすか？
RQ3このフレームワークは線形モデルを超えて、一般のパラメトリックおよびノンパラメトリック設定（例：チェンジポイント検出）へと拡張可能か？
RQ4Tibshiraniら（2014）の飽和モデルp値と比較して、提案された検定（例：max-t、次入力）の検出力はどのように異なるか？
RQ5選択的推論フレームワークから得られるp値が帰無仮説の下で独立であるための十分条件は何か？

主な発見

選択的max-t検定と次入力検定は、帰無仮説の下で一様分布に従い、各ステップで独立となるp値を生成する。これはFDR制御に必要な条件を満たす。
提案されたp値は、Tibshiraniら（2014）の飽和モデルp値よりも顕著に高い統計的検出力を達成しており、特にモデル選択の初期段階で顕著である。
糖尿病データセットにおいて、max-tのp値はステップ8（glu²）でモデル選択を示したが、飽和モデルp値はステップ9（age²）で選択した。これは、意味のある予測変数をより早期に検出できることを示している。
十分統計量と選択履歴に条件づけることで、適応的モデルパス選択下でもp値が有効であることをフレームワークが保証する。
ノンパラメトリックなチェンジポイント検出では、2標本検定統計量に基づくグリーディパスアルゴリズムがパーミュテーションサンプリングから得られる有効なp値を提供し、選択プロセスの構造により帰無仮説下での独立性が保証される。
p値が帰無仮説の下で独立であるための理論的条件を導出し、線形モデルを超えて広範なパラメトリックおよびノンパラメトリック問題へ一般化した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。