QUICK REVIEW

[论文解读] Formal Limitations on the Measurement of Mutual Information

David McAllester, Karl Stratos|arXiv (Cornell University)|Nov 10, 2018

Machine Learning and Algorithms参考文献 27被引用 66

一句话总结

该论文证明在有限样本估计时，对于互信息、KL 散度和熵的分布无关高置信下界存在普遍统计限制，并提出一种实用的熵差（DoE）估计器，在实践中可以有意义地估计大规模的 MI。

ABSTRACT

Measuring mutual information from finite data is difficult. Recent work has considered variational methods maximizing a lower bound. In this paper, we prove that serious statistical limitations are inherent to any method of measuring mutual information. More specifically, we show that any distribution-free high-confidence lower bound on mutual information estimated from N samples cannot be larger than O(ln N ).

研究动机与目标

激发从有限数据中估计互信息的困难及对下界估计量的局限性的认识。
给出形式化结果，表明分布无关的高置信下界不能超过样本量的对数增长。
统一并概括此前关于 KL 散度和熵估计的负面结果。
提出熵差（DoE）方法作为估计互信息的一个实际可行替代方案。
在合成数据和真实数据上通过实验显示 DoE 可以产生有意义的 MI 估计。

提出的方法

通过 Donsker-Varadhan 框架分析对 KL 散度的下界，并证明其上界不能超过 O(log N)（其中 N 为样本量）。
证明一个对熵估计的分布无关的下界限制，同样呈 O(log N) 的增长。
证明这些限制意味着对任何分布无关的 MI 估计器存在普遍约束。
提出将 MI 表达为熵的差并通过交叉熵最小化来估计熵项。
引入 DoE 估计器，它通过最小化交叉熵损失来计算 I(X;Y) = H(pX, qX) − H(pX|Y, qX|Y)。
就为何交叉熵上界在大熵情形下可能具信息量以及 DoE 性能的经验证据进行理论讨论与实证展示。

实验结果

研究问题

RQ1分布无关的、从 N 个样本中估计的互信息高置信下界是否可能超过与 N 相关的对数函数？
RQ2KL 散度或熵的下界是否必然以某种方式约束 MI，从而阻碍有限样本的准确估计？
RQ3是否存在一个实用的 MI 估计器，能够避免对数屏障，在实际大 MI 情况下仍然有用？
RQ4将 MI 表达为熵的差并通过交叉熵估计，是否比变分下界提供更稳健的替代？
RQ5基于 DoE 的估计与现有估计器在合成数据和真实数据集上的表现有何区别？

主要发现

任何对 MI 的分布无关高置信下界（从 N 个样本估计）都不能超过数量级为 ln N 的函数。
对 KL 散度和熵的下界也存在相同的对数限制，从而约束了普遍的 MI 估计。
基于交叉熵界的 DoE 估计器在实际中可以对大规模 MI 进行有意义的估计，且不具备正式的下界保证。
DoE 在合成相关数据和真实数据的实验中优于现有的变分下界估计器。
实证结果显示在使用 DoE 时，MI 可能达到较大值（如相关文章对中超过 120 比特、翻译对中达到 54 比特），而打乱的对之间的 MI 接近零。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。