[论文解读] Mitigating Bias in Calibration Error Estimation
本文提出了一套框架,用于量化和减少机器学习模型校准误差估计中的统计偏差。研究识别出等质量分箱和一种新型保持单调性的估计器 ECE_sweep,优于标准的等宽分箱方法,显著提升了校准方法的选择准确性和错误校准的检测能力。
For an AI system to be reliable, the confidence it expresses in its decisions must match its accuracy. To assess the degree of match, examples are typically binned by confidence and the per-bin mean confidence and accuracy are compared. Most research in calibration focuses on techniques to reduce this empirical measure of calibration error, ECE_bin. We instead focus on assessing statistical bias in this empirical measure, and we identify better estimators. We propose a framework through which we can compute the bias of a particular estimator for an evaluation data set of a given size. The framework involves synthesizing model outputs that have the same statistics as common neural architectures on popular data sets. We find that binning-based estimators with bins of equal mass (number of instances) have lower bias than estimators with bins of equal width. Our results indicate two reliable calibration-error estimators: the debiased estimator (Brocker, 2012; Ferro and Fricker, 2012) and a method we propose, ECE_sweep, which uses equal-mass bins and chooses the number of bins to be as large as possible while preserving monotonicity in the calibration function. With these estimators, we observe improvements in the effectiveness of recalibration methods and in the detection of model miscalibration.
研究动机与目标
- 识别并量化广泛使用的 ECE_bin 估计器在模型校准中所存在的统计偏差。
- 评估校准误差估计中的偏差如何影响校准技术的选择与有效性。
- 开发基于仿真的框架,以在现实的模型置信度分数分布下估计偏差。
- 比较多种校准误差估计器,识别出适用于实际部署的偏差最小的估计器。
- 提升高风险应用(如医疗保健和自动驾驶系统)中模型校准评估的可靠性。
提出的方法
- 构建了基于构造偏差(BBC)的框架,通过合成与 CIFAR-10、CIFAR-100 和 ImageNet 上真实神经网络匹配的模型置信度分数统计特征,生成数据。
- 采用最大似然拟合方法,在模拟数据中解析估计真实校准误差(TCE),从而实现偏差的直接计算。
- 比较七种估计器:ECE_bin(等宽分箱)、ECE_sweep(等质量分箱并施加单调性约束)、ECE_debias(去偏估计器)以及 KDE(核密度估计器)。
- 采用等质量分箱以降低偏差,特别是在样本量较少的情况下,避免因样本稀疏导致的分箱偏差。
- 提出 ECE_sweep 作为新估计器,通过在保持校准曲线单调性的前提下选择最大数量的分箱,实现更低偏差。
- 在多种模型架构和数据集上评估估计器,以分析其偏差、方差以及对校准决策的影响。
实验结果
研究问题
- RQ1ECE_bin 在不同模型架构和数据集分布下的统计偏差如何变化?
- RQ2在对完全校准模型进行校准误差估计时,ECE_bin 的偏差大小和方向是什么?
- RQ3不同的分箱策略——等宽分箱与等质量分箱——如何影响估计器的偏差?
- RQ4新估计器 ECE_sweep 是否能在保持校准函数单调性的同时降低偏差?
- RQ5估计器偏差在实际中如何影响最优校准方法的选择?
主要发现
- 即使在完全校准的模型中,使用等宽分箱的 ECE_bin 仍表现出显著且系统性的偏差,通常会高估校准误差。
- 与等宽分箱相比,等质量分箱显著降低了偏差,尤其在样本量较少的情况下效果更明显。
- ECE_sweep 通过使用等质量分箱并选择最大数量的分箱以保持单调性,其偏差低于 ECE_bin,并在现实场景中优于 ECE_debias。
- 去偏估计器(ECE_debias)的偏差低于 ECE_bin,但由于对置信度分数分布偏态敏感,在实际场景中仍不如 ECE_sweep 表现优异。
- 与使用 ECE_bin 相比,使用 ECE_sweep 可使校准方法选择正确率在 10 次中有 7 次提升,而 ECE_bin 仅在 3 次中表现更优,如表 1 所示。
- 在样本量较少或置信度分数分布偏态的场景下,ECE_sweep 比 ECE_bin 更敏感地检测到模型的校准偏差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。