Skip to main content
QUICK REVIEW

[论文解读] Choice of V for V-Fold Cross-Validation in Least-Squares Density Estimation

Sylvain Arlot, Matthieu Lerasle|arXiv (Cornell University)|Oct 22, 2012
Statistical Methods and Inference参考文献 32被引用 55
一句话总结

本文为最小二乘密度估计中选择 V=5 或 V=10 的 V 折交叉验证提供了理论依据。它建立了领先常数趋近于 1 的非渐近 oracle 不等式,并表明方差随 V 呈 1 + 4/(V−1) 的形式减小,解释了为何性能从 V=2 提升至 V=5 或 10 时显著改善,之后趋于平稳。

ABSTRACT

This paper studies V-fold cross-validation for model selection in least-squares density estimation. The goal is to provide theoretical grounds for choosing V in order to minimize the least-squares loss of the selected estimator. We first prove a non-asymptotic oracle inequality for V-fold cross-validation and its bias-corrected version (V-fold penalization). In particular, this result implies that V-fold penalization is asymptotically optimal in the nonparametric case. Then, we compute the variance of V-fold cross-validation and related criteria, as well as the variance of key quantities for model selection performance. We show that these variances depend on V like 1+4/(V-1), at least in some particular cases, suggesting that the performance increases much from V=2 to V=5 or 10, and then is almost constant. Overall, this can explain the common advice to take V=5---at least in our setting and when the computational power is limited---, as supported by some simulation experiments. An oracle inequality and exact formulas for the variance are also proved for Monte-Carlo cross-validation, also known as repeated cross-validation, where the parameter V is replaced by the number B of random splits of the data.

研究动机与目标

  • 为 V 折交叉验证中常见经验选择 V=5 或 V=10 提供理论依据。
  • 分析 V 的选择如何影响最小二乘密度估计中所选估计器的风险。
  • 推导 V 折交叉验证和惩罚方法的非渐近 oracle 不等式及精确方差公式。
  • 通过方差分解比较不同 V 值下的二阶性能差异。
  • 将结果扩展至蒙特卡洛交叉验证(重复交叉验证),其中参数 B 代替 V。

提出的方法

  • 推导了 V 折交叉验证及其偏差校正版本(V 折惩罚)的非渐近 oracle 不等式,表明当 n→∞ 时领先常数趋近于 1。
  • 利用新的 V 折惩罚的浓度不等式来建立 oracle 不等式。
  • 计算了 V 折交叉验证准则及相关量的精确方差,表明其对 V 的依赖关系为 1 + 4/(V−1)。
  • 分析了关键模型选择性能指标的方差,将其与 V 折划分的设计联系起来。
  • 证明了具有 B 个随机划分的蒙特卡洛交叉验证(重复交叉验证)的方差的精确公式。
  • 将结果应用于最小二乘密度估计,利用 U 统计量和惩罚的闭式表达式。

实验结果

研究问题

  • RQ1为何在 V 折交叉验证中普遍使用 V=5 或 V=10?其理论依据是什么?
  • RQ2V 的选择如何影响交叉验证估计量的方差以及所选模型的风险?
  • RQ3能否为 V 折惩罚建立领先常数趋近于 1 的非渐近 oracle 不等式?
  • RQ4在二阶风险项的意义上,V 折交叉验证的性能如何依赖于 V?
  • RQ5V 折交叉验证及相关准则的精确方差是多少?其随 V 的变化规律如何?

主要发现

  • 为 V 折惩罚建立了非渐近 oracle 不等式,领先常数为 1+εₙ,其中当 n→∞ 时 εₙ→0,且对任意 V 均成立。
  • V 折交叉验证准则及相关量的方差随 V 呈 1 + 4/(V−1) 的形式变化,表明从 V=2 到 V=5 或 10 有显著改进。
  • 当 V 超过 5 或 10 后,性能提升显著减小,因为方差减少变得可忽略。
  • 结果解释了在计算成本有限时,V=5 或 10 在实践中取得成功的原因。
  • 相同方差缩放行为也被证明适用于具有 B 个随机划分的蒙特卡洛交叉验证。
  • 理论框架证实,在非参数设置下,V 折惩罚在渐近意义上是最优的。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。