QUICK REVIEW

[論文レビュー] Choice of V for V-Fold Cross-Validation in Least-Squares Density Estimation

Sylvain Arlot, Matthieu Lerasle|arXiv (Cornell University)|Oct 22, 2012

Statistical Methods and Inference参考文献 32被引用数 55

ひとこと要約

本稿は、最小二乗密度推定におけるV-fold交差検証の際、V=5 もしくは V=10 を選ぶ理論的根拠を提示する。非漸近的オラクル不等式が確立され、主要定数が1に近づくことを示し、分散がVに対して1 + 4/(V−1)のようになることを示しており、V=2からV=5やV=10に変更することで性能が著しく向上し、その後は頭打つことが説明できる。

ABSTRACT

This paper studies V-fold cross-validation for model selection in least-squares density estimation. The goal is to provide theoretical grounds for choosing V in order to minimize the least-squares loss of the selected estimator. We first prove a non-asymptotic oracle inequality for V-fold cross-validation and its bias-corrected version (V-fold penalization). In particular, this result implies that V-fold penalization is asymptotically optimal in the nonparametric case. Then, we compute the variance of V-fold cross-validation and related criteria, as well as the variance of key quantities for model selection performance. We show that these variances depend on V like 1+4/(V-1), at least in some particular cases, suggesting that the performance increases much from V=2 to V=5 or 10, and then is almost constant. Overall, this can explain the common advice to take V=5---at least in our setting and when the computational power is limited---, as supported by some simulation experiments. An oracle inequality and exact formulas for the variance are also proved for Monte-Carlo cross-validation, also known as repeated cross-validation, where the parameter V is replaced by the number B of random splits of the data.

研究の動機と目的

V-fold交差検証において一般的に使われるV=5またはV=10の選択について、理論的根拠を提供すること。
最小二乗密度推定における推定子のリスクがVの選択にどのように影響を受けるかを分析すること。
V-fold交差検証およびペナルティ法の非漸近的オラクル不等式と正確な分散公式を導出すること。
分散分解を用いて、Vの値ごとの2次的性能差を比較すること。
パラメータBをVの代わりに用いるモンテカルロ交差検証（繰り返し交差検証）への結果の拡張。

提案手法

V-fold交差検証およびそのバイアス補正版（V-foldペナルティ法）に対して、非漸近的オラクル不等式を導出し、n→∞のとき主要定数が1に近づくことを示した。
V-foldペナルティのための新しい集中不等式を用いて、オラクル不等式を確立した。
V-fold交差検証基準および関連量の正確な分散を計算し、Vに依存する形で1 + 4/(V−1)のようになることを示した。
重要なモデル選択性能指標の分散を分析し、V-fold分割の設計と関連づけた。
B個のランダムな分割を用いたモンテカルロ交差検証（繰り返し交差検証）の分散の正確な公式を証明した。
U統計量およびペナルティの閉形式表現を活用し、結果を最小二乗密度推定に適用した。

実験結果

リサーチクエスチョン

RQ1なぜV-fold交差検証において一般的にV=5またはV=10が使われるのか、理論的根拠は何か？
RQ2Vの選択が交差検証推定量の分散および選択モデルのリスクにどのように影響を与えるか？
RQ3V-foldペナルティ法に対して、主要定数が1に近づく非漸近的オラクル不等式を確立できるか？
RQ4V-fold交差検証の性能は、2次的リスク項の観点からVにどのように依存するか？
RQ5V-fold交差検証および関連基準の正確な分散は何か？また、それはVにどのように依存するか？

主な発見

V-foldペナルティ法に対して、主要定数が1+εₙである非漸近的オラクル不等式が確立され、ここでεₙ→0（n→∞）となる。この結果は任意のVに対して有効である。
V-fold交差検証基準および関連量の分散は1 + 4/(V−1)のスケーリングに従うことが示され、V=2からV=5やV=10に変更することで顕著な改善が得られることを示唆している。
V=5やV=10を超えてVを増加させても、性能の向上は著しく小さくなり、分散低減の効果は無視できるほど小さくなる。
これらの結果は、計算コストが限られる状況において、実務でV=5またはV=10が成功する理由を説明している。
同じ分散スケーリングの性質が、B個のランダムな分割を用いたモンテカルロ交差検証に対しても成り立つことが示された。
理論的枠組みにより、V-foldペナルティ法が非パラメトリック設定において漸近的に最適であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。