Skip to main content
QUICK REVIEW

[論文レビュー] Empirical estimation of entropy functionals with confidence

Kumar Sricharan, Raviv Raich|arXiv (Cornell University)|Dec 19, 2010
Machine Learning and Algorithms参考文献 16被引用数 26
ひとこと要約

本稿では、データ分割と境界補正を用いてバイアスと分散を低減することで、シャノンエントロピーおよびリーニー・エントロピーなどの確率密度関数の非線形汎関数(例えばエントロピー)の推定に、二部グラフプラグイン(BPI)k-NN推定量を導入する。この手法は、一般の滑らかな汎関数に対してO(T^{-4/(2+d)})の最適な平均二乗誤差(MSE)率を達成し、エントロピーに対してはO(((log T)^6 / T)^{4/d})の高速な収束率を示す。中心極限定理を用いて、タイトな漸近的信頼区間が導出される。

ABSTRACT

This paper introduces a class of k-nearest neighbor ($k$-NN) estimators called bipartite plug-in (BPI) estimators for estimating integrals of non-linear functions of a probability density, such as Shannon entropy and Rényi entropy. The density is assumed to be smooth, have bounded support, and be uniformly bounded from below on this set. Unlike previous $k$-NN estimators of non-linear density functionals, the proposed estimator uses data-splitting and boundary correction to achieve lower mean square error. Specifically, we assume that $T$ i.i.d. samples ${X}_i \in \mathbb{R}^d$ from the density are split into two pieces of cardinality $M$ and $N$ respectively, with $M$ samples used for computing a k-nearest-neighbor density estimate and the remaining $N$ samples used for empirical estimation of the integral of the density functional. By studying the statistical properties of k-NN balls, explicit rates for the bias and variance of the BPI estimator are derived in terms of the sample size, the dimension of the samples and the underlying probability distribution. Based on these results, it is possible to specify optimal choice of tuning parameters $M/T$, $k$ for maximizing the rate of decrease of the mean square error (MSE). The resultant optimized BPI estimator converges faster and achieves lower mean squared error than previous $k$-NN entropy estimators. In addition, a central limit theorem is established for the BPI estimator that allows us to specify tight asymptotic confidence intervals.

研究の動機と目的

  • 非線形関数の推定における統計的効率性を向上させるために、エントロピーなどの確率密度関数の非線形汎関数のためのk-NN推定量を開発すること。
  • k-NN密度推定におけるデータ分割と境界補正を導入することで、エントロピー推定のバイアスと分散を低減すること。
  • 推定量の平均二乗誤差(MSE)を最小化する最適なチューニングパラメータ(kおよびM/T)を導出すること。
  • BPI推定量に対して中心極限定理(CLT)を確立し、タイトな漸近的信頼区間の構築を可能にすること。
  • 支持集合の境界が事前に分かっているオラクル推定量と同等の収束速度を達成するが、境界に関する事前知識を必要としないこと。

提案手法

  • BPI推定量は、T個のi.i.d.標本を二つの互いに素な集合に分割する:M個の標本をk-NN密度推定に、残りのN個の標本を汎関数の経験的平均化に使用する。
  • Mセットにおけるk-NNボールを用いて密度を推定し、その推定値を関数g(f(x),x)に代入した後、Nセット全体で平均化することで、∫g(f(x),x)f(x)dxの推定を行う。
  • 境界補正はk-NN近傍の幾何構造によって自動的に組み込まれ、支持集合の事前知識が不要になる。
  • 近接近傍の幾何構造と集中不等式を用いて、バイアスや分散などの統計的性質を分析する。
  • MSEを最小化するように最適なチューニングパラメータを導出し、一般の汎関数に対してはk = O(T^{-2/(2+d)})を選び、エントロピーに対してはより高速な収束率を得るために調整する。
  • BPI推定量に対して中心極限定理を確立し、漸近的に有効な信頼区間の構築を可能にする。

実験結果

リサーチクエスチョン

  • RQ1データ分割と境界補正を導入することで、エントロピー汎関数のk-NN推定量のバイアスと分散を低減できるか?
  • RQ2BPI推定量の平均二乗誤差(MSE)を最小化する最適なkおよびM/Tの選択は何か?
  • RQ3BPI推定量は、支持境界の知識があるオラクル推定量と同等の収束速度を達成できるか?
  • RQ4BPI推定量の漸近的分布は何か? また、タイトな信頼区間の構築に使用できるか?
  • RQ5シャノンエントロピーおよびリーニー・エントロピーといった特定の汎関数に対して、一般の汎関数と比較してBPI推定量はより高速な収束速度を達成できるか?

主な発見

  • 一般の滑らかな汎関数gに対して、BPI推定量はO(T^{-4/(2+d)})の最適なMSE収束率を達成する。ここでdは次元、Tは標本サイズである。
  • シャノンエントロピーおよびリーニー・エントロピーに対しては、バイアス補正によりO(((log T)^6 / T)^{4/d})のより高速なMSE収束率を達成する。
  • BPI推定量は、支持集合境界の知識があるオラクル推定量と同等の性能を示し、MSE収束率も同じであるが、境界に関する事前知識を必要としない。
  • BPI推定量に対して中心極限定理が確立され、正規近似に基づくタイトな漸近的信頼区間の導出が可能になる。
  • 最適なkの選択はO(T^{-2/(2+d)})であり、MSEを最小化する最適な分割比M/Tも導出され、従来のk-NN推定量を上回る性能を発揮する。
  • バイアスと分散に関する理論的境界が、T、d、および潜在的な分布の関数として明示的に導出され、推定量の精密なチューニングが可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。