QUICK REVIEW

[论文解读] Notes on Kullback-Leibler Divergence and Likelihood

Jonathon Shlens|arXiv (Cornell University)|Apr 8, 2014

Neural Networks and Applications被引用 69

一句话总结

本文建立了Kullback-Leibler（KL）散度与似然理论之间的直接联系，表明在观测次数趋于无穷的极限下，KL散度作为多项式似然的负对数出现。通过将KL散度视为模型分布q在真实分布p下解释观测数据的能力的度量，为KL散度提供了直观的解释。

ABSTRACT

The Kullback-Leibler (KL) divergence is a fundamental equation of information theory that quantifies the proximity of two probability distributions. Although difficult to understand by examining the equation, an intuition and understanding of the KL divergence arises from its intimate relationship with likelihood theory. We discuss how KL divergence arises from likelihood theory in an attempt to provide some intuition and reserve a rigorous (but rather simple) derivation for the appendix. Finally, we comment on recent applications of KL divergence in the neural coding literature and highlight its natural application.

研究动机与目标

通过将KL散度与似然理论联系起来，而非仅依赖其形式定义，提供对KL散度的直观理解。
证明KL散度在样本量趋于无穷时，数学上等价于平均似然的负对数。
通过基于组合数学和Stirling近似法的推导，阐明KL散度在统计推断和信息论中的作用。
强调KL散度在现代应用中的相关性，特别是在神经编码中，其用于量化神经元之间的依赖性和相关性。

提出的方法

推导平均多项式似然 $\bar{L} = L(c|q)^{1/n}$ 作为与样本量n无关的模型拟合程度的尺度不变度量。
应用Stirling近似 $\log n! \approx n\log n - n$ 以简化多项式似然表达式的对数形式。
用经验分布 $p_i$ 替换归一化的直方图计数 $c_i/n$，得到表达式 $\bar{L} = -\sum_i p_i \log p_i + \sum_i p_i \log q_i$。
识别出该表达式为 $-D_{\text{KL}}(p \| q)$，从而表明 $D_{\text{KL}}(p \| q) = \lim_{n\to\infty} -\frac{1}{n} \log L(c|q)$。
证明多项式似然中的归一化常数导致了熵项 $-\sum_i p_i \log p_i$，从而将组合数学与信息论联系起来。
利用推导出的关系，将KL散度解释为使用模型q描述真实分布p时的编码惩罚或对数似然亏损。

实验结果

研究问题

RQ1Kullback-Leibler散度与在统计模型下观察到数据的似然性之间有何关系？
RQ2为何KL散度是非对称的，这在模型选择和信息损失方面意味着什么？
RQ3平均多项式似然的渐近行为是什么，它如何与KL散度关联？
RQ4KL散度如何从信息论和编码效率的角度被解释为模型拟合的度量？
RQ5多项式似然的归一化常数在熵与KL散度出现过程中起什么作用？

主要发现

KL散度 $D_{\text{KL}}(p \| q)$ 在样本量趋于无穷时，数学上等价于平均多项式似然的负对数：$D_{\text{KL}}(p \| q) = \lim_{n\to\infty} -\frac{1}{n} \log L(c|q)$。
当真实分布 $p$ 与模型分布 $q$ 完全相同时，平均似然 $\bar{L}$ 趋近于1，KL散度为零。
若模型 $q$ 错误且观测频率 $c_i/n$ 与 $q_i$ 偏离，平均似然 $\bar{L}$ 趋近于零，KL散度趋于无穷。
推导表明，多项式似然中的归一化常数导致了熵项 $-\sum_i p_i \log p_i$，从而将组合数学与信息论联系起来。
KL散度量化了使用 $q$ 近似 $p$ 时的期望信息损失，可被解释为信息论中的“编码惩罚”。
KL散度自然地支撑了互信息，后者通过 $I(X;Y) = D_{\text{KL}}(p(x,y) \| p(x)p(y))$ 衡量随机变量之间的统计依赖性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。