Skip to main content
QUICK REVIEW

[論文レビュー] Analysis of k-Nearest Neighbor Distances with Application to Entropy Estimation

Shashank Singh, Barnabás Póczos|arXiv (Cornell University)|Mar 28, 2016
Advanced Statistical Methods and Models参考文献 37被引用数 27
ひとこと要約

この論文は、k-最近傍(k-NN)距離に基づくKozachenko-Leonenko(KL)エントロピー推定器の有限標本バイアスおよび分散の上限を提供する。一般の条件(有界でない分布を含む)の下で、推定器は滑らかな密度に対して最小最大収束速度を達成し、バイアスは $O((k/n)^{eta/D})$、分散は $O(1/n)$ に比例する。

ABSTRACT

Estimating entropy and mutual information consistently is important for many machine learning applications. The Kozachenko-Leonenko (KL) estimator (Kozachenko & Leonenko, 1987) is a widely used nonparametric estimator for the entropy of multivariate continuous random variables, as well as the basis of the mutual information estimator of Kraskov et al. (2004), perhaps the most widely used estimator of mutual information in this setting. Despite the practical importance of these estimators, major theoretical questions regarding their finite-sample behavior remain open. This paper proves finite-sample bounds on the bias and variance of the KL estimator, showing that it achieves the minimax convergence rate for certain classes of smooth functions. In proving these bounds, we analyze finite-sample behavior of k-nearest neighbors (k-NN) distance statistics (on which the KL estimator is based). We derive concentration inequalities for k-NN distances and a general expectation bound for statistics of k-NN distances, which may be useful for other analyses of k-NN methods.

研究の動機と目的

  • Kozachenko-Leonenko(KL)エントロピー推定器の有限標本挙動に関する未解決の理論的問題に取り組むこと。
  • 一般の分布的仮定の下で、KL推定器のバイアスおよび分散に対する厳密な有限標本上限を導出すること。
  • k-NN距離に適用可能な広範なk-NN手法に適した濃縮不等式およびモーメント上限を構築すること。
  • 従来の強い仮定(コンパクトな台や有界な密度滑らかさ)を緩和することで、既存の結果を拡張すること。
  • 広く使われているKSG相互情報量推定器および関連する汎関数の理論的基盤を提供すること。

提案手法

  • 基本測度と確率密度を伴う一般の距離測度空間におけるk-NN距離を分析する。
  • 密度のモーメントと尾部条件を用いて、k-NN距離の濃縮不等式を導出する。
  • 対数k-NN距離のモーメント上限を確立し、分散制御に不可欠な負のモーメントを含む。
  • Efron-Stein不等式と大数の法則を用いて、KL推定器の分散を上限付ける。
  • 密度のホルダー連続性と次元性の仮定を用いて、バイアス上限を $ (k/n)^{\beta/D} $ のスケーリングで導出する。
  • バイアスと分散の上限を組み合わせ、最適化された $ k $ における平均二乗誤差レートを導出する。

実験結果

リサーチクエスチョン

  • RQ1一般の滑らかさおよび尾部条件の下で、KLエントロピー推定器の有限標本バイアスおよび分散の上限は何か?
  • RQ2非コンパクトまたは有界でない分布におけるk-NN距離統計量はどのように振る舞い、どのようなモーメント上限が適用可能か?
  • RQ3コンパクトな台や有界な密度を仮定せずに、k-NN距離の濃縮不等式を確立できるか?
  • RQ4KL推定器は微分エントロピー推定において最小最大収束速度を達成するか?
  • RQ5理論的枠組みは相互情報量および発散推定器に拡張可能か?

主な発見

  • KL推定器のバイアスは $ O\big((k/n)^{\beta/D}\big) $ で上限付けられ、ここで $ \beta $ はホルダー連続性パラメータ、$ D $ は内因的次元である。
  • KL推定器の分散は $ O(1/n) $ で上限付けられ、k-NN近傍数の幾何的制約がある場合には $ O(1/nk) $ の精密な上限が得られる。
  • 一般の $ \ell $-次中心モーメントについて対数k-NN距離のモーメント上限が確立され、$ \ell! / \lambda^\ell $ を用いた指数的尾部制御が可能である。
  • KL推定器の平均二乗誤差は最小最大レート $ O\big((k/n)^{2\beta/D} + 1/nk\big) $ を達成し、最適な $ k \asymp n^{\max\{0, (2\beta - D)/(2\beta + D)\}} $ が得られる。
  • コンパクトな台の仮定を緩和し、弱い尾部および密度正則性条件の下でも結果が成り立つ。
  • 解析はKSG相互情報量推定器の理論的基盤を提供し、リーマンおよびツァリスエントロピーへの一般化も可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。