QUICK REVIEW

[論文レビュー] A significance test for forward stepwise model selection

Joshua R. Loftus, Jonathan Taylor|arXiv (Cornell University)|May 15, 2014

Statistical Methods and Inference参考文献 4被引用数 36

ひとこと要約

本稿は、データに依存するモデル選択の後でも、グローバルな帰無仮説の下で正確なp値を提供する前向き段階的モデル選択のための有意性検定 $T\chi$ を導入する。反復的にこの検定を各ステップで適用し、残差を直交化することで、データ分割を必要とせず妥当な推論が可能となり、相関のある変数やグループ化された変数を選択する際、従来の $\chi^2$ 検定よりも第1種の過誤をよりよく制御する。

ABSTRACT

We apply the methods developed by Lockhart et al. (2013) and Taylor et al. (2013) on significance tests for penalized regression to forward stepwise model selection. A general framework for selection procedures described by quadratic inequalities includes a variant of forward stepwise with grouped variables, allowing us to handle categorical variables and factor models. We provide an algorithm to compute a new statistic with an exact null distribution conditional on the outcome of the model selection procedure. This new statistic, which we denote $Tχ$, has a truncated $χ$ distribution under the global null. We apply this test in forward stepwise iteratively on the residual after each step. The resulting method has the computational strengths of stepwise selection and addresses the problem of invalid test statistics due to model selection. We illustrate the flexibility of this method by applying it to several specialized applications of forward stepwise including a hierarchical interactions model and a recently described additive model that adaptively chooses between linear and nonlinear effects for each variable.

研究の動機と目的

データに依存するモデル選択によって生じる無効なp値の問題に対処すること。
モデル選択後の有意性検定を計算的に効率的に行い、第1種の過誤を制御する方法を開発すること。
グループ化された変数や階層的モデル（相互作用や加法的モデルを含む）への事後モデル選択推論を拡張すること。
選択と推論に同じデータを使用する場合でも、有効なp値を保つ反復的有意性検定のフレームワークを提供すること。
ノイズ変数が選択される状況で、標準的な $\chi^2$ 検定よりも偽発見率をよりよく制御する本手法の優位性を示すこと。

提案手法

グローバルな帰無仮説の下で、選択結果を条件とした正確な切断された $\chi$ 分布を示す新しい検定統計量 $T\chi$ を提案する。
各前向きステップで、すでに選択された変数に対して応答変数および予測変数を直交化することで、この検定を反復的に適用する。
グループ化された変数や因子モデルを取り扱うための一般化された枠組み（2次不等式に基づく）を用い、カテゴリカル予測変数に関する推論を可能にする。
選択手順を考慮した条件付き分布アプローチを採用し、データ分割や交差検証の必要を回避する。
ロックハートら（2013）およびテイラーら（2013）の手法を前向き段階的設定に適応し、反復的選択にまで拡張する。
$T\chi$ のp値に基づく停止ルールを実装し、シミュレーションおよび実世界のHIV薬物耐性データセットを用いてその性能を評価する。

実験結果

リサーチクエスチョン

RQ1選択と推論に同じデータを使用する場合でも、前向き段階的モデル選択後に有効な有意性検定を構築できるか？
RQ2ノイズ変数が選択される状況で、$T\chi$ 検定は標準的な $\chi^2$ 検定と比較して第1種の過誤をどのように制御するか？
RQ3本手法は、複数の水準を持つカテゴリカル予測変数のようなグループ化された変数を処理できるか？
RQ4グローバルな帰無仮説検定を複数の選択ステップに反復的に適用しても、p値は有効に保たれるか？
RQ5$T\chi$ に基づく停止ルールは、真に関連のある予測変数を特定するのにどの程度効果的であり、誤発見を最小限に抑えるか？

主な発見

10個のカテゴリカル予測変数を含むシミュレーションでは、最後の真の予測変数が選択された後、$T\chi$ のp値が正しく増加した一方、$\chi^2$ のp値は反保守的（anti-conservative）のままであった。
$T\chi$ 検定は、最初の2つの真の予測変数（X1 および X9）に対してp値 0.00 を達成し、有意であると正しく同定した。
前向き段階的選択と $T\chi$ のp値を計算するのにわずか 0.022 秒で完了したが、M=200 のモンテカルロ推定では正確なp値の推定に 0.235 秒を要した。
HIVdb PI データセットでは、$T\chi$ に基づく停止ルールにより、X3TC で 9 個の変数、ABC で 17 個、AZT で 39 個の変数が選択され、薬剤間で結果が一貫していた。
ペアワイズ相互作用を含む Glinternet モデルでは、APV で 29 個、ATV で 14 個の変数が選択され、生物学的に意味のある相互作用が捉えられていた。
$T\chi$ のp値は、最後の真の予測変数以降、一様分布よりも確率的に大きく（stochastically larger）なった。これは、第1種の過誤が適切に制御されていることを示し、$\chi^2$ のp値とは異なり、小さく保たれていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。