[论文解读] Empirical estimation of entropy functionals with confidence
本文提出了一种双分块插值(BPI)k-最近邻(k-NN)估计器,用于非线性概率密度泛函,如香农熵和Rényi熵,通过数据分割和边界校正以降低偏差与方差。该方法在一般光滑泛函下实现最优均方误差(MSE)率 O(T^{-4/(2+d)}),在熵估计中实现 O(((log T)^6 / T)^{4/d}) 的速率,且通过中心极限定理推导出紧致的渐近置信区间。
This paper introduces a class of k-nearest neighbor ($k$-NN) estimators called bipartite plug-in (BPI) estimators for estimating integrals of non-linear functions of a probability density, such as Shannon entropy and Rényi entropy. The density is assumed to be smooth, have bounded support, and be uniformly bounded from below on this set. Unlike previous $k$-NN estimators of non-linear density functionals, the proposed estimator uses data-splitting and boundary correction to achieve lower mean square error. Specifically, we assume that $T$ i.i.d. samples ${X}_i \in \mathbb{R}^d$ from the density are split into two pieces of cardinality $M$ and $N$ respectively, with $M$ samples used for computing a k-nearest-neighbor density estimate and the remaining $N$ samples used for empirical estimation of the integral of the density functional. By studying the statistical properties of k-NN balls, explicit rates for the bias and variance of the BPI estimator are derived in terms of the sample size, the dimension of the samples and the underlying probability distribution. Based on these results, it is possible to specify optimal choice of tuning parameters $M/T$, $k$ for maximizing the rate of decrease of the mean square error (MSE). The resultant optimized BPI estimator converges faster and achieves lower mean squared error than previous $k$-NN entropy estimators. In addition, a central limit theorem is established for the BPI estimator that allows us to specify tight asymptotic confidence intervals.
研究动机与目标
- 开发一种用于概率密度非线性泛函(如熵)的k-NN估计器,以提升统计效率。
- 通过在k-NN密度估计中引入数据分割和边界校正,降低熵估计中的偏差与方差。
- 推导最小化估计器均方误差(MSE)的最优调参(k 和 M/T)。
- 为BPI估计器建立中心极限定理(CLT),以实现紧致的渐近置信区间。
- 在无需事先知晓支撑集的情况下,实现与已知支撑边界之oracle估计器相同的收敛速率。
提出的方法
- BPI估计器将T个独立同分布样本划分为两个互不相交的集合:M个样本用于k-NN密度估计,N个样本用于泛函的经验平均。
- 利用k-NN球估计M集上的密度,并将估计值代入泛函g(f(x),x),随后在N集上平均,以估计∫g(f(x),x)f(x)dx。
- 通过k-NN邻域的几何结构自动实现边界校正,无需事先知晓支撑集信息。
- 利用邻近邻域的几何结构与集中不等式分析偏差与方差等统计性质。
- 通过最小化MSE推导最优调参,其中k选择为O(T^{-2/(2+d)})用于一般泛函,并针对熵进行调整以实现更快的收敛速率。
- 为BPI估计器建立了中心极限定理,从而可构建渐近有效的置信区间。
实验结果
研究问题
- RQ1通过数据分割和边界校正,能否改进k-NN估计器在熵泛函上的偏差与方差?
- RQ2使BPI估计器均方误差(MSE)最小化的最优k和M/T选择为何?
- RQ3BPI估计器能否实现与已知支撑边界之oracle估计器相同的收敛速率?
- RQ4BPI估计器的渐近分布为何?能否用于构造紧致的置信区间?
- RQ5与一般泛函相比,BPI估计器在香农熵和Rényi熵等特定泛函上是否实现更快的收敛速率?
主要发现
- BPI估计器在一般光滑泛函g下实现最优MSE速率 O(T^{-4/(2+d)}),其中d为维度,T为样本量。
- 对于香农熵和Rényi熵,BPI估计器通过偏差校正实现更快的MSE速率 O(((log T)^6 / T)^{4/d})。
- BPI估计器在无需事先知晓支撑边界信息的情况下,达到与已知边界之oracle估计器相同的MSE收敛速率。
- 为BPI估计器建立了中心极限定理,从而可基于正态近似推导出紧致的渐近置信区间。
- 最优k选择为 O(T^{-2/(2+d)}),最优分割比例M/T已推导出以最小化MSE,优于先前的k-NN估计器。
- 明确推导出偏差与方差的理论界,其表达式以T、d及底层分布为参数,从而可对估计器进行精确调参。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。