Skip to main content
QUICK REVIEW

[論文レビュー] V-fold cross-validation improved: V-fold penalization

Sylvain Arlot|ArXiv.org|Feb 5, 2008
Statistical Methods and Inference参考文献 43被引用数 35
ひとこと要約

本稿では、V-fold交差検証(VFCV)を改善するため、部分標本抽出に基づく柔軟なペナルティ項を導入した計算的に効率的なモデル選択手法、V-foldペナルティを提案する。この手法は、異分散回帰においてもほぼオラクル予測性能を達成する。非漸近的オラクル不等式が証明され、主要定数が1に近づくことを示し、回帰関数の滑らかさへの適応性および低信号対雑音比環境へのロバスト性を示す。

ABSTRACT

We study the efficiency of V-fold cross-validation (VFCV) for model selection from the non-asymptotic viewpoint, and suggest an improvement on it, which we call ``V-fold penalization''. Considering a particular (though simple) regression problem, we prove that VFCV with a bounded V is suboptimal for model selection, because it ``overpenalizes'' all the more that V is large. Hence, asymptotic optimality requires V to go to infinity. However, when the signal-to-noise ratio is low, it appears that overpenalizing is necessary, so that the optimal V is not always the larger one, despite of the variability issue. This is confirmed by some simulated data. In order to improve on the prediction performance of VFCV, we define a new model selection procedure, called ``V-fold penalization'' (penVF). It is a V-fold subsampling version of Efron's bootstrap penalties, so that it has the same computational cost as VFCV, while being more flexible. In a heteroscedastic regression framework, assuming the models to have a particular structure, we prove that penVF satisfies a non-asymptotic oracle inequality with a leading constant that tends to 1 when the sample size goes to infinity. In particular, this implies adaptivity to the smoothness of the regression function, even with a highly heteroscedastic noise. Moreover, it is easy to overpenalize with penVF, independently from the V parameter. A simulation study shows that this results in a significant improvement on VFCV in non-asymptotic situations.

研究の動機と目的

  • Vが大きい場合、非漸近的設定においてV-fold交差検証(VFCV)が最適でないという問題を解決すること。
  • VFCVと同等の計算コストを維持しつつ、予測精度を向上させるモデル選択手順を開発すること。
  • 異分散誤差設定下でも、回帰関数の滑らかさへの適応性を達成すること。
  • 主要定数が1に近づく非漸近的理論的保証を提供することにより、ほぼオラクル性能を示すこと。

提案手法

  • EfronのブートストラップペナルティのV-fold部分標本抽出版であるV-foldペナルティ(penVF)を提案し、VFCVと同等の計算コストを維持する。
  • ペナルティ項を、経験的リスクと部分標本抽出構造に依存させ、Vに依存しない柔軟な過剰ペナルティを可能にする。
  • 非漸近的オラクル不等式の枠組みを用いて、異分散回帰下での理論的性能境界を導出する。
  • Bernsteinの不等式と集中不等式を用いて、経験的頻度が期待値からどれほど逸脱するかを制御する。
  • 二項係数の逆数の上限を導出し、ペナルティ推定量の分散を制御する。
  • 条件付き期待値の考え方とモーメントの上限を用いて、確率的設計下でのペナルティの安定性を確立する。

実験結果

リサーチクエスチョン

  • RQ1Vが大きい場合、バイアスが低減されるにもかかわらず、なぜV-fold交差検証は最適でないのか?
  • RQ2計算コストを増加させることなく、VFCVを上回る予測性能を達成できるモデル選択手順を設計できるか?
  • RQ3V-foldペナルティは、異分散設定下でも回帰関数の滑らかさへの適応性を達成できるか?
  • RQ4低信号対雑音比の非漸近的設定下で、ペナルティパラメータの最適なチューニングは何か?
  • RQ5主要定数が1に近づく非漸近的オラクル不等式を、V-foldペナルティ手順に対して確立できるか?

主な発見

  • V-foldペナルティは、標本サイズが増加するにつれて主要定数が1に近づく非漸近的オラクル不等式を満たし、ほぼ最適な予測性能を示す。
  • 本手法は、極めて異分散性の高いノイズ下でも回帰関数の滑らかさへの適応性を達成しており、標準的なVFCVに比べ顕著な利点を示す。
  • VFCVは、Vが大きい場合、特に低信号対雑音比の環境下で過剰ペナルティを課すことが示され、バイアスが低減されているにもかかわらず最適でないことが判明した。
  • シミュレーションスタディにより、非漸近的設定下でV-foldペナルティがVFCVを著しく上回ることが確認された。特に信号対雑音比が低い場合に顕著である。
  • penVFにおけるペナルティは、Vパラメータに依存せずに過剰ペナルティを可能にし、VFCVに比べてチューニングの柔軟性が向上している。
  • ペナルティ項のモーメントおよび集中に関する理論的境界により、確率的設計およびモデルの複雑さの増加下でもロバスト性が保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。