Skip to main content
QUICK REVIEW

[论文解读] Density estimation via cross-validation: Model selection point of view

Alain Célisse|arXiv (Cornell University)|Oct 10, 2008
Statistical Methods and Inference参考文献 42被引用 2
一句话总结

本文针对使用投影估计器进行密度估计的交叉验证(CV)提供了理论分析,推导出可显著降低计算时间的闭式表达式。将CV形式化为带有随机惩罚项的惩罚准则,表明惩罚随测试集大小p增加而增大,并在霍尔德(Hölder)和贝索夫(Besov)空间中建立了理论 oracle 不等式与自适应结果。

ABSTRACT

The problem of model selection by cross-validation is addressed in the density estimation framework. Extensively used in practice, cross-validation (CV) remains poorly understood, especially in the non-asymptotic setting which is the main concern of this work. A recurrent problem with CV is the computation time it involves. This drawback is overcome here thanks to closed-form expressions for the CV estimator of the risk for a broad class of widespread estimators: projection estimators. In order to shed new lights on CV procedures with respect to the cardinality p of the test set, the CV estimator is interpreted as a penalized criterion with a random penalty. For instance, the amount of penalization is shown to increase with p. A theoretical assessment of the CV performance is carried out thanks to two oracle inequalities applying to respectively bounded or square-integrable densities. For several collections of models, adaptivity results with respect to Hölder and Besov spaces are derived as well.

研究动机与目标

  • 为非渐近设置下密度估计中交叉验证(CV)缺乏理论理解的问题提供解决方案。
  • 通过为一大类投影估计器推导出CV估计器的闭式表达式,显著降低CV的计算负担。
  • 将CV解释为带有随机惩罚项的惩罚准则,分析惩罚项如何依赖于测试集基数p。
  • 在有界密度与平方可积密度假设下,通过oracle不等式建立CV的理论性能保证。
  • 推导出在霍尔德(Hölder)与贝索夫(Besov)函数空间中CV的自适应结果,证明其在不同光滑性类中的鲁棒性。

提出的方法

  • 在投影估计器的背景下,推导出CV估计器风险的闭式表达式,从而实现高效计算。
  • 将CV准则重新解释为带有随机惩罚项的惩罚风险,其中惩罚项依赖于测试集大小p。
  • 应用oracle不等式评估在有界密度与平方可积密度两种情形下CV的性能。
  • 使用泛函分析工具分析霍尔德与贝索夫空间中的模型族,建立自适应性质。
  • 分析CV估计器在不同光滑性类中的行为,将惩罚强度与模型复杂度及测试集大小相联系。

实验结果

研究问题

  • RQ1如何在不牺牲理论保证的前提下,使密度估计中的交叉验证计算更加高效?
  • RQ2测试集大小(p)与CV过程中有效惩罚之间的关系是什么?
  • RQ3CV估计器在非渐近设置下表现如何,特别是在有界或平方可积密度情形下?
  • RQ4在不同模型族下,CV在霍尔德与贝索夫空间中能实现多大程度的自适应性?
  • RQ5CV能否被正式解释为带有随机惩罚项的惩罚准则?该解释如何有助于理解其行为?

主要发现

  • 为投影估计器推导出CV估计器的闭式表达式,显著降低了计算成本。
  • CV过程被正式解释为带有随机惩罚项的惩罚准则,且惩罚随测试集大小p增加而增大。
  • 为有界密度与平方可积密度建立了oracle不等式,提供了理论性能边界。
  • 推导出霍尔德与贝索夫空间中模型族的自适应结果,表明CV可达到最优收敛速率(仅差对数因子)。
  • 表明CV准则中的惩罚项随p增长,为测试集扩大时正则化效应增强提供了合理的解释。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。