Skip to main content
QUICK REVIEW

[论文解读] Rethinking Softmax with Cross-Entropy: Neural Network Classifier as Mutual Information Estimator

Zhenyue Qin, Dongwoo Kim|arXiv (Cornell University)|Nov 25, 2019
Adversarial Robustness in Machine Learning参考文献 29被引用 37
一句话总结

该论文表明在标签分布均匀的前提下,使用 softmax 交叉熵训练最大化输入与标签之间的互信息,将神经网络分类器重新表述为互信息估计器,并引入 infoCAM 用于定位信息量大的输入区域。

ABSTRACT

Mutual information is widely applied to learn latent representations of observations, whilst its implication in classification neural networks remain to be better explained. We show that optimising the parameters of classification neural networks with softmax cross-entropy is equivalent to maximising the mutual information between inputs and labels under the balanced data assumption. Through experiments on synthetic and real datasets, we show that softmax cross-entropy can estimate mutual information approximately. When applied to image classification, this relation helps approximate the point-wise mutual information between an input image and a label without modifying the network structure. To this end, we propose infoCAM, informative class activation map, which highlights regions of the input image that are the most relevant to a given label based on differences in information. The activation map helps localise the target object in an input image. Through experiments on the semi-supervised object localisation task with two real-world datasets, we evaluate the effectiveness of our information-theoretic approach.

研究动机与目标

  • 通过信息理论视角重新解释神经网络分类器,将 softmax 交叉熵与你的互信息相关联。
  • Develop a practical MI-estimator view that can be used to assess feature informativeness in inputs for classification.
  • 引入概率校正的 softmax (PC-softmax) 以处理不平衡数据集,同时保持 MI 估计。
  • 提出并验证 Informative Class Activation Map (infoCAM),用于定位对标签最具信息量的图像区域。

提出的方法

  • 将交叉熵与 softmax 相关联到互信息的变分界限,并在标签分布均匀时显示等价。
  • 引入 PC-softmax 以放宽均匀标签假设,并证明与神经网络的一致性MI。
  • 定义并计算逐点互信息(PMI)差异,以量化区域与标签的信息量。
  • 通过在图像区域上分解 PMI 差异来推导 infoCAM,以识别对 WSOL 有信息量的区域。
  • 在合成数据和真实数据集(MNIST, CUB-200-2011)上对 MI 估计器(softmax、MINE、MC)进行经验比较并评估分类性能。
  • 在多种架构和数据集上展示 infoCAM 相对于传统 CAM 的 WSOL 改进。

实验结果

研究问题

  • RQ1在什么条件下,带 softmax 的交叉熵是否最大化输入与标签之间的互信息?
  • RQ2PC-softmax 是否能在不平衡数据上提供一致的 MI 估计并提升分类性能?
  • RQ3信息理论激活图(infoCAM)是否在定位对标签信息量最大的区域方面优于传统 CAM,尤其在 WSOL 任务中?

主要发现

  • 在标签分布均匀的情况下,交叉熵的下确界与输入与标签之间的互信息对齐(常数偏移)。
  • PC-softmax 产生具有竞争力的 MI 估计,并在不平衡数据集上提高平均每类准确率。
  • 在 MNIST 和 CUB-200-2011 上,PC-softmax 在不平衡数据上相较于 softmax 提高了平均每类准确率,而在平衡情况下表现出可比的准确率。
  • InfoCAM 在多种网络和数据集上的弱监督目标定位任务中持续优于 CAM。
  • InfoCAM+ 与 ADL 进一步提升 WSOL 性能,区域基的 PMI 差异引导定位。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。