Skip to main content
QUICK REVIEW

[论文解读] $V$-fold cross-validation and $V$-fold penalization in least-squares density estimation

Sylvain Arlot, Matthieu Lerasle|arXiv (Cornell University)|Oct 22, 2012
Statistical Methods and Inference参考文献 5被引用 7
一句话总结

本文为在最小二乘密度估计中选择 V = 10 的 V 折交叉验证和 V 折惩罚法提供了理论依据。它建立了非渐近的Oracle不等式,表明风险随 V 增加而降低,并证明在 V = 5–10 之后模型选择性能的方差趋于稳定,从而解释了在计算资源有限时普遍采用 V = 10 的经验实践。

ABSTRACT

Abstract. This paper studies V-fold cross-validation for model selection in least-squares density estimation. The goal is to provide theoretical grounds for choosing V in order to minimize the least-squares risk of the selected estimator. We first prove a non asymptotic oracle inequality for V-fold cross-validation and its bias-corrected version (V-fold penalization), with an upper bound decreasing as a function of V. In particular, this result implies V-fold penalization is asymptotically optimal. Then, we compute the variance of V-fold cross-validation and related criteria, as well as the variance of key quantities for model selection performances. We show these variances depend on V like 1 + 1/(V − 1) (at least in some particular cases), suggesting the performances increase much from V = 2 to V = 5 or 10, and then is almost constant. Overall, this explains the common advice to take V = 10—at least in our setting and when the computational power is limited—, as confirmed by some simulation experiments. 1.

研究动机与目标

  • 为最小二乘密度估计中的 V 折交叉验证的折数 V 的选择提供理论依据。
  • 分析所选估计量的最小二乘风险如何随 V 变化。
  • 理解交叉验证及相关准则的方差如何依赖于 V,特别是在有限样本设置下。
  • 通过对方差和风险行为的理论分析,解释实践中 V = 10 取得成功的原因。
  • 建立 V 折惩罚法的渐近最优性,并推导出非渐近的 Oracle 不等式。

提出的方法

  • 推导了 V 折交叉验证及其偏差校正变体(V 折惩罚法)的非渐近 Oracle 不等式,表明风险随 V 增加而降低。
  • 分析了 V 折交叉验证及相关准则的方差,推导出在特定情况下其对 V 的渐近依赖关系为 1 + 1/(V − 1)。
  • 研究了影响模型选择性能的关键量的方差,将其与 V 的选择联系起来。
  • 通过理论分析表明,当 V 超过 5–10 后,性能提升显著减弱。
  • 通过模拟实验验证了理论发现,证实了 V = 10 在稳定性和最优性方面的表现。
  • 证明了在最小二乘风险准则下,V 折惩罚法具有渐近最优性。

实验结果

研究问题

  • RQ1V 折交叉验证估计量的最小二乘风险如何依赖于折数 V?
  • RQ2在模型选择中普遍采用 V = 10 的经验实践的理论基础是什么?
  • RQ3V 折交叉验证及相关准则的方差如何随 V 变化?
  • RQ4在哪个 V 值时,模型选择的性能提升变得可忽略?
  • RQ5在最小二乘密度估计背景下,V 折惩罚法是否具有渐近最优性?

主要发现

  • 非渐近 Oracle 不等式表明,V 折交叉验证和 V 折惩罚法的风险随 V 增加而降低。
  • 在某些情况下,V 折交叉验证及相关准则的方差随 V 的变化关系为 1 + 1/(V − 1),表明从 V = 2 到 V = 5 或 10 时性能迅速提升。
  • 当 V 超过 5–10 后,性能提升显著减弱,方差趋于稳定,风险趋近于最小值。
  • 理论分析支持将 V = 10 作为风险降低与计算成本之间实际权衡的合理选择。
  • 证明了在最小二乘风险准则下,V 折惩罚法具有渐近最优性。
  • 模拟实验表明,V = 10 在有限样本设置下能实现强大且稳定的模型选择性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。