Skip to main content
QUICK REVIEW

[論文レビュー] Bootstrapping and Sample Splitting For High-Dimensional, Assumption-Free Inference

Alessandro Rinaldo, Larry Wasserman|arXiv (Cornell University)|Nov 16, 2016
Statistical Methods and Inference参考文献 47被引用数 23
ひとこと要約

この論文は、線形性やスパarsityの仮定を必要としない高次元回帰における推論のためのサンプル分割とブートストラップに基づく手法を提案している。線形性やスパarsityの仮定が不要な有効な信頼区間を提供する。特に真のモデルが誤った指定されている場合でも、より解釈可能で高精度に推定可能なLOCO(Leave-Out-COvariates)パラメータを導入している。

ABSTRACT

Several new methods have been proposed for performing valid inference after model selection. An older method is sampling splitting: use part of the data for model selection and part for inference. In this paper we revisit sample splitting combined with the bootstrap (or the Normal approximation). We show that this leads to a simple, assumption-free approach to inference and we establish results on the accuracy of the method. In fact, we find new bounds on the accuracy of the bootstrap and the Normal approximation for general nonlinear parameters with increasing dimension which we then use to assess the accuracy of regression inference. We show that an alternative, called the image bootstrap, has higher coverage accuracy at the cost of more computation. We define new parameters that measure variable importance and that can be inferred with greater accuracy than the usual regression coefficients. There is a inference-prediction tradeoff: splitting increases the accuracy and robustness of inference but can decrease the accuracy of the predictions.

研究の動機と目的

  • 真のモデルが未知または非線形である場合に、高次元回帰におけるロバストで仮定フリーの推論フレームワークを構築すること。
  • 弱いモデル仮定下での標準回帰係数の限界を解決すること。
  • 高次元設定において、変数重要度をよりよく捉えることができる解釈可能で高精度に推定可能な新しいパラメータ(LOCOパラメータ)を提案すること。
  • モデル選択における予測精度と推論精度のトレードオフを定量化すること。
  • 次第に増加する次元における非線形関数型のブートストラップおよび正規近似の精度に関する新しい理論的境界を確立すること。

提案手法

  • サンプル分割の使用:データを学習集合と推論集合に分割し、モデル選択と推論を分離する。
  • 推論集合上で選択されたモデルのパラメータ推定値に対してブートストラップまたは正規近似を適用し、有効な信頼区間を得る。
  • 各共変量を順に除外した際の最良の線形予測子の係数としてLOCOパラメータを定義し、解釈可能性と推定精度を向上させる。
  • 高次元設定における非線形関数型のブートストラップおよび正規近似の精度に関する新しい非漸近的境界を確立する。
  • 計算コストは高いが、より高い精度を示すブートストラップの変種「イメージブートストラップ」を用いることで、被覆確率の精度を向上させる。
  • 選択された変数の数に事前に指定された上限 $k$ を用いてモデルサイズを制御し、弱い仮定下でも理論的制御を確保する。

実験結果

リサーチクエスチョン

  • RQ1サンプル分割とブートストラップを組み合わせることで、線形性やスパarsityの仮定がなくても、高次元回帰における有効な仮定フリー信頼区間を得られるか?
  • RQ2高次元でモデルが誤った指定されている場合、標準回帰係数とLOCOパラメータの両方におけるブートストラップおよび正規近似の精度はどのように比較されるか?
  • RQ3サンプル分割を用いる場合、予測精度と推論精度のトレードオフはどのようなものか?
  • RQ4弱いモデル仮定下で、標準回帰係数よりも解釈可能で高精度に推定可能な新しいパラメータを定義できるか?
  • RQ5次元が増加する際、非線形パラメータのブートストラップおよび正規近似の精度に関する理論的境界は何か?

主な発見

  • 本手法は、真の回帰関数が線形でなくても最小限の仮定の下で、仮定フリーでロバストな信頼区間を提供する。
  • 標準回帰係数よりもLOCOパラメータの方が、特に線形モデルが誤った指定されている場合に高精度に推定可能であることが示された。
  • 高次元では標準回帰係数の正規近似は性能が著しく劣るが、LOCOパラメータでは良好な性能を示す。
  • イメージブートストラップを用いることで、ブートストラップの被覆確率の精度を向上させられるが、計算コストが高くなる。
  • サンプル分割がなければ、投影パラメータの法則を一貫して推定できないことが示され、有効な推論のためにはデータ分割が不可欠であることが明確になった。
  • 次元と標本サイズに依存する明示的なレートを伴う、高次元設定における非線形関数型のブートストラップおよび正規近似の精度に関する新しい非漸近的境界が確立された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。