QUICK REVIEW

[論文レビュー] Optimal Inference After Model Selection

William Fithian, Dennis L. Sun|arXiv (Cornell University)|Oct 9, 2014

Statistical Methods and Inference参考文献 51被引用数 227

ひとこと要約

本稿では、モデル選択後の型I誤り率を条件付きで制御する選択的仮説検定手法を提案し、適応的モデル選択後の有効な統計的推論を保証する。指数型分布族における古典的最適検定理論を活用することで、最も powerful な不偏検定および信頼区間を導出し、線形回帰における新しい選択的 z 検定および t 検定を含む。これらの手法は、従来の方法よりもパワーを向上させつつ、周辺的性質を維持する。

ABSTRACT

To perform inference after model selection, we propose controlling the selective type I error; i.e., the error rate of a test given that it was performed. By doing so, we recover long-run frequency properties among selected hypotheses analogous to those that apply in the classical (non-adaptive) context. Our proposal is closely related to data splitting and has a similar intuitive justification, but is more powerful. Exploiting the classical theory of Lehmann and Scheffé (1955), we derive most powerful unbiased selective tests and confidence intervals for inference in exponential family models after arbitrary selection procedures. For linear regression, we derive new selective z-tests that generalize recent proposals for inference after model selection and improve on their power, and new selective t-tests that do not require knowledge of the error variance.

研究の動機と目的

適応的モデル選択後に従来の手法が選択バイアスのため失敗する、不適切な推論の問題に対処すること。
選択的型I誤り率を形式化・制御すること — すなわち、仮説が検定のために選択されたという条件下での帰無仮説の誤った棄却確率。
任意の選択手順の後でも、最適でパワーがあり、有効な推論手順を指数型分布族モデルで開発すること。
データ分割法や既存の選択的仮説検定手法を上回るパワーを実現しながら、誤り率の制御を維持するように改善すること。
質問が提起されたという条件下で有効な推論を可能にする一般枠組みを提供すること。これにより、適応的状況下での長期的周辺的性質を回復する。

提案手法

選択的型I誤り率を制御することを提案。これは、仮説が検定のために選択されたという条件下での帰無仮説の棄却確率として定義される。
Lehmann と Scheffé (1955) の古典的理論を応用し、選択下での指数型分布族モデルにおける最も powerful な不偏検定を導出する。
線形回帰における新しい選択的 z 検定を導出し、パワーの面で先行研究を一般化・改善する。
誤差分散の知識を必要としない選択的 t 検定を導入し、実用的応用性を向上させる。
データカービングを用いて、選択データセットに残る情報を活用することで、データ分割法を凌駆する。
推論を特定されたモデルに条件付け、条件付き分布を用いることで、有効な被覆確率と誤り率を保証する。

実験結果

リサーチクエスチョン

RQ1仮説の選択がデータに依存する場合、統計的推論における誤り率をどのように定義・制御できるか。
RQ2適応的推論において適切な誤り率を制御すべきは何か。これは古典的型I誤り率とどのように異なるか。
RQ3任意のモデル選択手順の後でも、パワーがあり、有効な最適検定を導出できるか。
RQ4パワーと効率の観点から、データ分割法や既存の選択的仮説検定手法をどのように改善できるか。
RQ5条件付き推論の役割は、選択後の有効な推論を保証するために果たすものであり、その実装はどのように効率的に行えるか。

主な発見

選択的型I誤り率 — すなわち、選択されたという条件下での誤った帰無仮説の棄却確率 — は、モデル選択後の推論において自然かつ妥当な基準である。
提案手法は、この誤り率を水準 α で制御し、古典的推論と類似した長期的周辺的性質を保証する。
線形回帰において、新しい選択的 z 検定は、従来の手法よりもパワーが高く、有効な誤り率制御を維持する。
誤差分散の知識を必要としない選択的 t 検定を導出し、実世界の応用においてより実用的である。
データカービングは、選択データセットからの情報を活用することで、データ分割法よりもパワーが高いことが示された。
理論的結果から、FWER（家族wise誤り率）の制御が、選択的誤り率の制御を意味しないことが判明し、適応的状況下での選択的誤り率制御の必要性が強調された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。