QUICK REVIEW

[論文レビュー] $V$-fold cross-validation and $V$-fold penalization in least-squares density estimation

Sylvain Arlot, Matthieu Lerasle|arXiv (Cornell University)|Oct 22, 2012

Statistical Methods and Inference参考文献 5被引用数 7

ひとこと要約

本稿は、最小二乗密度推定におけるV-fold交差検証およびV-foldペナルティ法においてV = 10を選択する理論的根拠を提示する。非漸近的オラクル不等式を確立し、リスクがVの増加に伴い減少することを示し、モデル選択の性能における分散がV = 5–10以降に安定化することを示しており、計算リソースが限られた状況でのV = 10の一般的な実証的実践を説明する。

ABSTRACT

Abstract. This paper studies V-fold cross-validation for model selection in least-squares density estimation. The goal is to provide theoretical grounds for choosing V in order to minimize the least-squares risk of the selected estimator. We first prove a non asymptotic oracle inequality for V-fold cross-validation and its bias-corrected version (V-fold penalization), with an upper bound decreasing as a function of V. In particular, this result implies V-fold penalization is asymptotically optimal. Then, we compute the variance of V-fold cross-validation and related criteria, as well as the variance of key quantities for model selection performances. We show these variances depend on V like 1 + 1/(V − 1) (at least in some particular cases), suggesting the performances increase much from V = 2 to V = 5 or 10, and then is almost constant. Overall, this explains the common advice to take V = 10—at least in our setting and when the computational power is limited—, as confirmed by some simulation experiments. 1.

研究の動機と目的

最小二乗密度推定におけるV-fold交差検証のfold数Vの選択について理論的根拠を提供すること。
Vの関数として選択された推定量の最小二乗リスクを分析すること。
有限標本設定において、交差検証および関連基準の分散がVにどのように依存するかを理解すること。
分散およびリスクの挙動の理論的分析を通じて、実務でV = 10が成功する理由を説明すること。
V-foldペナルティ法の漸近的最適性を確立し、非漸近的オラクル不等式を導出すること。

提案手法

V-fold交差検証およびそのバイアス補正版（V-foldペナルティ法）について非漸近的オラクル不等式を導出し、リスクがVの増加に伴い減少することを示す。
V- fold交差検証および関連基準の分散を分析し、特定の状況においてVに依存する漸近的依存関係1 + 1/(V − 1)を導出する。
モデル選択性能に影響を与える主要な量の分散を検討し、それらがVの選択とどのように関連するかを明らかにする。
理論的分析を用いて、Vを5–10を超えて増加させても性能向上が著しく小さくなることを示す。
シミュレーション実験により理論的結果を検証し、V = 10が有限標本設定において安定的かつ最適なモデル選択性能を示すことを確認する。
最小二乗リスク基準の下でV- foldペナルティ法が漸近的に最適であることを証明する。

実験結果

リサーチクエスチョン

RQ1V- fold交差検証推定量の最小二乗リスクは、fold数Vにどのように依存するか？
RQ2モデル選択においてV = 10を用いる一般的な実証的実践の理論的根拠は何か？
RQ3V- fold交差検証および関連基準の分散はVにどのようにスケーリングされるか？
RQ4モデル選択における性能向上が無視できるようになるVの値は何か？
RQ5最小二乗密度推定の文脈において、V- foldペナルティ法は漸近的に最適か？

主な発見

非漸近的オラクル不等式により、V- fold交差検証およびV- foldペナルティ法のリスクがVの増加に伴い減少することが示された。
特定の状況において、V- fold交差検証および関連基準の分散は1 + 1/(V − 1)に比例する。これは、V = 2からV = 5または10に至るまでの急激な改善を示している。
Vを5–10を超えて増加させても性能向上が著しく小さくなり、分散が安定化し、リスクが最小値に近づく。
理論的分析により、V = 10がリスク低減と計算コストの間の実用的な妥協点として支持される。
最小二乗リスク基準の下で、V- foldペナルティ法が漸近的に最適であることが証明された。
シミュレーション実験により、V = 10が有限標本設定において強固で安定したモデル選択性能を示すことが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。