Skip to main content
QUICK REVIEW

[论文解读] Calibration tests in multi-class classification: A unifying framework

David Widmann, Fredrik Lindsten|arXiv (Cornell University)|Oct 24, 2019
Advanced Statistical Methods and Models被引用 27
一句话总结

本文提出了一种基于矩阵值核的校准度量的统一框架,用于多分类校准检验,引入了在校准原假设下具有可解释p值边界和近似值的一致且无偏的估计器。主要贡献在于提升了校准误差估计的可解释性,实证结果表明,现代深度神经网络始终存在校准误差,表现为p值近似值接近零。

ABSTRACT

In safety-critical applications a probabilistic model is usually required to be calibrated, i.e., to capture the uncertainty of its predictions accurately. In multi-class classification, calibration of the most confident predictions only is often not sufficient. We propose and study calibration measures for multi-class classification that generalize existing measures such as the expected calibration error, the maximum calibration error, and the maximum mean calibration error. We propose and evaluate empirically different consistent and unbiased estimators for a specific class of measures based on matrix-valued kernels. Importantly, these estimators can be interpreted as test statistics associated with well-defined bounds and approximations of the p-value under the null hypothesis that the model is calibrated, significantly improving the interpretability of calibration measures, which otherwise lack any meaningful unit or scale.

研究动机与目标

  • 为解决多分类校准中缺乏可解释且统计可靠的校准度量的问题,特别是针对最置信预测之外的情形。
  • 将现有的校准度量(如ECE、MCE和MMCE)推广至适用于多分类场景的统一框架。
  • 基于矩阵值核开发一致且无偏的校准度量估计器。
  • 提供理论基础坚实的p值近似和边界,以增强校准误差估计的可解释性。
  • 利用所提出的框架实证评估现代深度神经网络的校准性能,揭示其普遍存在校准误差。

提出的方法

  • 提出一类基于矩阵值核的通用校准度量,实现对现有度量(如ECE和MMCE)的统一处理。
  • 为SKCE(球面核校准误差)引入在温和正则条件下一致且无偏的估计器。
  • 采用一致性重采样和渐近分布近似方法,估计在模型校准原假设下的p值。
  • 推导p值的无分布边界,以在渐近近似不可靠时提供保守推断。
  • 通过生成模型的受控实验,验证估计器和p值近似的统计特性。
  • 采用基于Julia的实现,评估在不同类别数和样本量下的计算效率与可扩展性。

实验结果

研究问题

  • RQ1现有的二分类和最置信预测设置下的校准度量能否推广至适用于多分类的统一框架?
  • RQ2所提出的基于核的校准误差估计器在有限样本条件下是否能提供一致且无偏的估计?
  • RQ3基于重采样和渐近理论推导的p值近似和边界是否能提升校准误差估计的可解释性?
  • RQ4当使用所提出的框架评估时,现代深度神经网络在校准性方面表现如何?
  • RQ5所提出的估计器在高维概率单纯形的大规模多分类问题中是否具有计算可行性?

主要发现

  • SKCE的估计器具有一致性和无偏性,在使用生成模型的受控实验中表现出强劲的实证性能。
  • 基于估计器 $\widehat{\mathrm{SKCE}}_{\mathrm{uq}}$ 渐近分布的p值近似平均上能准确逼近真实p值,从而产生功效强大的统计检验。
  • 在CIFAR-10上评估的所有现代神经网络中,使用 $\widehat{\mathrm{SKCE}}_{\mathrm{uq}}$ 的p值近似值均为零,表明对校准原假设存在强烈证据。
  • 使用 $\widehat{\mathrm{SKCE}}_{\mathrm{ul}}$ 的p值近似值范围从0.18(ResNet18)到0.91(GoogLeNet),反映出不同程度的经验校准误差。
  • p值的无分布边界通常较宽松,介于0.99到1之间,表明其为保守估计,但对实际推断无太大用处。
  • 计算评估表明,即使在1000个类别和1000个样本下,$\widehat{\mathrm{SKCE}}_{\mathrm{b}}$ 和 $\widehat{\mathrm{SKCE}}_{\mathrm{uq}}$ 等估计器的计算时间也低于0.1秒,展现出良好的可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。