Skip to main content
QUICK REVIEW

[論文レビュー] Density estimation via cross-validation: Model selection point of view

Alain Célisse|arXiv (Cornell University)|Oct 10, 2008
Statistical Methods and Inference参考文献 42被引用数 2
ひとこと要約

本稿は、射影推定子を用いた密度推定における交差検証(CV)の理論的分析を提供し、計算時間を大幅に削減する閉形式の式を導出する。CVを確率的ペナルティ項を伴うペナルティ基準として定式化し、テスト集合のサイズpが大きくなるほどペナルティが増加することを示し、ホルダー空間およびベソフ空間におけるオラクル不等式と適応性の結果を確立する。

ABSTRACT

The problem of model selection by cross-validation is addressed in the density estimation framework. Extensively used in practice, cross-validation (CV) remains poorly understood, especially in the non-asymptotic setting which is the main concern of this work. A recurrent problem with CV is the computation time it involves. This drawback is overcome here thanks to closed-form expressions for the CV estimator of the risk for a broad class of widespread estimators: projection estimators. In order to shed new lights on CV procedures with respect to the cardinality p of the test set, the CV estimator is interpreted as a penalized criterion with a random penalty. For instance, the amount of penalization is shown to increase with p. A theoretical assessment of the CV performance is carried out thanks to two oracle inequalities applying to respectively bounded or square-integrable densities. For several collections of models, adaptivity results with respect to Hölder and Besov spaces are derived as well.

研究の動機と目的

  • 密度推定における非漸近的設定下での交差検証(CV)の理論的理解の不足を解消すること。
  • 広範なクラスの射影推定子に対して、CV推定量の閉形式表現を導出することで、CVの計算負荷を軽減すること。
  • CVを、テスト集合の基数pに依存するランダムペナルティ項を伴うペナルティ基準として解釈し、そのペナルティがどのように変化するかを分析すること。
  • 有界密度および二階可積分性の仮定の下で、CVの理論的性能保証をオラクル不等式を用いて確立すること。
  • ホルダー空間およびベソフ関数空間におけるCVの適応性結果を導出し、異なる滑らかさクラスにわたるその頑健性を示すこと。

提案手法

  • 射影推定子の文脈において、リスクのCV推定量の閉形式表現を導出し、計算を効率化する。
  • CV基準を、テスト集合のサイズpに依存するランダムペナルティ項を伴うペナルティリスクとして再解釈する。
  • オラクル不等式を用いて、有界密度および二階可積分性のある密度の2つの設定下でCVの性能を評価する。
  • 関数解析的手法を用いてホルダー空間およびベソフ空間におけるモデル集合を分析し、適応性の性質を確立する。
  • 異なる滑らかさクラスにおけるCV推定量の挙動を分析し、ペナルティの強さがモデルの複雑さおよびテスト集合のサイズにどのように関連するかを明らかにする。

実験結果

リサーチクエスチョン

  • RQ1密度推定における交差検証を、理論的保証を失うことなく計算的に効率化する方法は何か?
  • RQ2テスト集合のサイズ(p)とCV手順における有効なペナルティとの関係は何か?
  • RQ3CV推定量は、非漸近的設定下、特に有界または二階可積分性のある密度に対してどのように振る舞うか?
  • RQ4異なるモデル集合の下で、ホルダー空間およびベソフ空間におけるCVの適応性はどの程度達成可能か?
  • RQ5CVを正式に、ランダムペナルティ項を伴うペナルティ基準として解釈できるか?この解釈は、CVの挙動を理解するのにどのように役立つか?

主な発見

  • 射影推定子に対して、CV推定量の閉形式表現が導出され、計算コストが著しく削減された。
  • CV手順が、テスト集合サイズpに応じて増加するランダムペナルティ項を伴うペナルティ基準として正式に解釈された。
  • 有界密度および二階可積分性のある密度の両方に対して、オラクル不等式が確立され、理論的性能バッファが得られた。
  • ホルダー空間およびベソフ空間におけるモデル集合に対して、適応性の結果が導出され、CVが対数要因を除いて最適レートを達成することが示された。
  • CV基準におけるペナルティ項がpに従って増加することが示され、テスト集合が拡大するにつれて正則化効果が強化される、合理的な説明が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。