Skip to main content
QUICK REVIEW

[论文解读] Entropy Estimates from Insufficient Samplings

Peter Grassberger|arXiv (Cornell University)|Jul 29, 2003
Algorithms and Data Compression参考文献 4被引用 75
一句话总结

本文提出了一种新的稀疏数据下香农熵的解析估计器,基于Grassberger 1988年方法的修正版本,通过使用digamma函数和数值优化实现更优的偏差控制。该方法在低采样条件下显著降低了系统性偏差,同时保持了可管理的统计误差,并避免了贝叶斯方法中所需的先验分布。

ABSTRACT

We present a detailed derivation of some estimators of Shannon entropy for discrete distributions. They hold for finite samples of N points distributed into M "boxes", with N and M -> oo, but N/M < oo. In the high sampling regime (<< 1 points in each box) they have exponentially small biases. In the low sampling regime the errors increase but are still much smaller than for most other estimators. One advantage is that our main estimators are given analytically, with explicitly known analytical formulas for the biases.

研究动机与目标

  • 修正并系统化Grassberger 1988年熵估计器,该方法在偏差推导中存在错误,且缺乏严格的理论依据。
  • 开发一种新的解析熵估计器,其系统性偏差最小,尤其在 $ N/M \ll 1 $ 的低采样条件下表现优异。
  • 比较解析与数值优化估计器在偏差、统计误差和鲁棒性方面的性能表现。
  • 证明基于digamma函数 $ \psi(n) $ 及其修正项的估计器在偏差与方差之间实现了良好的权衡。
  • 提供一种实用的、无需先验信息的替代贝叶斯熵估计器,尤其适用于缺乏先验知识的场景。

提出的方法

  • 基于罕见事件的泊松近似推导偏差校正的熵估计器,假设 $ z_i = p_i N \to 0 $,且 $ N, M \to \infty $。
  • 提出估计器 $ \hat{H}_\phi = \ln N - \frac{M}{N} \overline{n \phi(n)} $,其中 $ \phi(n) $ 是观测频数 $ n_i $ 的函数,$ \overline{\cdot} $ 表示对各箱的平均。
  • 将digamma函数 $ \psi(n) $ 作为 $ \phi(n) $ 的关键组成部分,其来源于泊松统计下 $ n \phi(n) $ 的期望。
  • 通过 $ z $-矩的系统展开,并利用负 $ q $ 的解析延拓推导偏差校正项。
  • 采用模拟退火算法对 $ \phi(n) $ 进行数值优化,以最小化 $ z \in (0, \infty) $ 上偏差的 $ L^2 $ 范数。
  • 将方法推广至整数 $ q $ 的Rényi熵,但指出该新估计器难以推广至 $ q \neq 1 $ 的情形。

实验结果

研究问题

  • RQ1能否对Grassberger 1988年熵估计器进行系统性推导,纠正其早期偏差估计中的错误?
  • RQ2在稀疏采样条件下,使熵估计偏差最小化的最优函数 $ \phi(n) $ 是什么?
  • RQ3新解析估计器 $ \hat{H}_\psi $ 在偏差与统计误差方面,相较于朴素估计器与贝叶斯方法的表现如何?
  • RQ4通过模拟退火得到的数值优化 $ \phi(n) $ 函数是否能实现低于解析形式 $ \psi(n) $ 的绝对偏差?其在统计误差与单调性方面存在何种权衡?
  • RQ5该新估计器在多大程度上可推广至香农熵之外的Rényi熵?

主要发现

  • 基于 $ \phi(n) = \psi(n) $ 的估计器 $ \hat{H}_\psi $ 最大绝对偏差约为 0.1407,显著低于大多数替代方法。
  • 当 $ N/M < z^* \approx 0.217 $ 时,最坏情况偏差受 $ -\Delta H_G \leq E_1(2N/M) $ 限制,且当 $ N/M \to 0 $ 时,该偏差呈对数发散。
  • 通过模拟退火优化得到的 $ \phi(n) $ 函数可实现比 $ \psi(n) $ 更低的偏差,但代价是失去单调性并增加统计误差。
  • 在Nemenman (2003) 的六组测试案例中,除两种情况外,当 $ N \geq 100 $ 时,$ \hat{H}_\psi $ 的偏差可忽略不计(小于2个标准误差),包括齐普夫定律和 $ \beta = 1 $ 的情形。
  • 新估计器在统计误差方面与贝叶斯估计器相当,且在 $ N \geq 300 $ 时偏差表现更优,尤其在欠采样条件下。
  • 该方法避免了对先验分布的需求,因此在实际应用中比贝叶斯方法更具鲁棒性且更易使用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。