Skip to main content
QUICK REVIEW

[論文レビュー] P-values for high-dimensional regression

Nicolai Meinshausen, Lukas Meier|ArXiv.org|Nov 13, 2008
Statistical Methods and Inference参考文献 19被引用数 37
ひとこと要約

本稿では、高次元線形回帰におけるマルチスプリット推論手法を提案し、複数のランダムなデータ分割におけるp値を統合することで、漸近的に有効な家族-wise誤り率(FWER)および誤発見率(FDR)の制御を達成する。複数のスプリットからの結果を組み合わせることで、任意のデータ分割に依存する感度を低減し、単一スプリット手法と比較して、より高い統計的パワーと顕著に低い誤発見数を実現する。

ABSTRACT

Assigning significance in high-dimensional regression is challenging. Most computationally efficient selection algorithms cannot guard against inclusion of noise variables. Asymptotically valid p-values are not available. An exception is a recent proposal by Wasserman and Roeder (2008) which splits the data into two parts. The number of variables is then reduced to a manageable size using the first split, while classical variable selection techniques can be applied to the remaining variables, using the data from the second split. This yields asymptotic error control under minimal conditions. It involves, however, a one-time random split of the data. Results are sensitive to this arbitrary choice: it amounts to a `p-value lottery' and makes it difficult to reproduce results. Here, we show that inference across multiple random splits can be aggregated, while keeping asymptotic control over the inclusion of noise variables. We show that the resulting p-values can be used for control of both family-wise error (FWER) and false discovery rate (FDR). In addition, the proposed aggregation is shown to improve power while reducing the number of falsely selected variables substantially.

研究の動機と目的

  • 任意のデータ分割に起因する高次元回帰におけるp値の不安定さと再現性の低さを是正すること。
  • 複数のランダムなデータスプリットにわたる結果の統合を維持しつつ、漸近的誤差制御(FWERおよびFDR)を保つ手法の開発。
  • 単一スプリット手法と比較して、統計的パワーの向上と誤発見率の低減。
  • WassermanとRoeder(2008)の「スクリーニングしてクリーニングする」フレームワークを、p ≫ n の高次元設定下でも有効な推論を可能にするように拡張すること。

提案手法

  • データを複数回の独立したランダムなスプリットにより、訓練用(インサンプル)とテスト用(アウトオブサンプル)のセットに分割する。
  • 各スプリットにおいて、インサンプルデータに対してスクリーニング手順(例:lasso)を適用し、予測子の数を管理可能なサイズに削減する。
  • アウトオブサンプルデータにおいて、通常最小二乗法を用いて回帰係数を推定し、選択された変数のp値を計算する。
  • 各スプリットからのp値を、分位数に基づく補正を用いて統合し、FWERおよびFDRを制御する。
  • 選択バイアスを補正するため、ブートストラップに基づく補正を用い、統合されたp値の漸近的妥当性を保証する。
  • 複数検定における誤差制御を維持するため、log(γ_min)を含む係数を用いて最終的なp値を調整する。

実験結果

リサーチクエスチョン

  • RQ1p ≫ n の高次元回帰設定において、従来の推論が失敗する中で、p値を信頼できる方法で計算できるか?
  • RQ2複数のランダムスプリットにわたるデータ分割をどのように統合すれば、再現性が向上し、「p値の運試し」効果が軽減されるか?
  • RQ3マルチスプリットアプローチを用いることで、高次元回帰において漸近的FWERおよびFDR制御を達成できるか?
  • RQ4マルチスプリット手法は、単一スプリット推論と比較して、統計的パワーの向上と誤発見率の低減を実現するか?
  • RQ5低次元設定(n > p)では、特に予測子間の相関が高い場合に、この手法はどのように性能を示すか?

主な発見

  • マルチスプリット手法は、最小限の正則性条件のもとで、家族-wise誤り率(FWER)および誤発見率(FDR)の漸近的制御を達成する。
  • 単一スプリット手法と比較して、誤って選択された変数の数を顕著に低減し、選択の正確性が向上する。
  • 複数のデータスプリットにわたる情報の統合により、統計的パワーが向上する。
  • 予測子数pが標本サイズnを著しく超える場合でも、漸近的妥当性を維持する。
  • n > p の設定においても、本手法は競争力を持ち、特に予測子間に高い相関がある場合、古典的手法を上回ることが多い。
  • 理論的分析により、期待FDRがαに調和級数和を乗じたもので有界であることが確認され、Benjamini-Hochberg手順におけるFDR制御が保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。