[论文解读] Uncertainty Quantification and Deep Ensembles
本文分析深度集成在 mixup 和低数据情境下的校准相互作用,结果显示集成可能损害校准,并提出先池化再校准(Pool-Then-Calibrate)的方法,结合温度缩放以显著改善校准。
Deep Learning methods are known to suffer from calibration issues: they typically produce over-confident estimates. These problems are exacerbated in the low data regime. Although the calibration of probabilistic models is well studied, calibrating extremely over-parametrized models in the low-data regime presents unique challenges. We show that deep-ensembles do not necessarily lead to improved calibration properties. In fact, we show that standard ensembling methods, when used in conjunction with modern techniques such as mixup regularization, can lead to less calibrated models. This text examines the interplay between three of the most simple and commonly used approaches to leverage deep learning when data is scarce: data-augmentation, ensembling, and post-processing calibration methods. Although standard ensembling techniques certainly help boost accuracy, we demonstrate that the calibration of deep ensembles relies on subtle trade-offs. We also find that calibration methods such as temperature scaling need to be slightly tweaked when used with deep-ensembles and, crucially, need to be executed after the averaging process. Our simulations indicate that this simple strategy can halve the Expected Calibration Error (ECE) on a range of benchmark classification problems compared to standard deep-ensembles in the low data regime.
研究动机与目标
- 在数据有限的条件下训练的高参数化深度模型中,提出动机并量化不确定性校准问题。
- 检验数据增强(mixup)和集成平均在影响校准方面的相互作用。
- 评估后处理校准方法以及聚合顺序对校准性能的影响。
提出的方法
- 在数据稀缺和 mixup 增强下,分析深度集成的校准属性。
- 比较线性池化、中位数/裁剪池化以及温度缩放作为后处理步骤。
- 提出 Pool-Then-Calibrate:训练模型,在聚合后再在验证数据上拟合一个单一的温度参数。
- 在多个数据集和架构上评估不同的池化和校准顺序(A-D)。
- 使用适当的评分规则(如交叉熵)来优化校准参数。
实验结果
研究问题
- RQ1在低数据情境下,尤其是使用 mixup 增强时,深度集成如何影响校准?
- RQ2后处理校准(温度缩放)是否以某种方式与集成平均相互作用,从而改善或恶化校准?
- RQ3哪种池化/校准顺序(先池化再校准 vs 先校准再池化)在不同数据集上实现最佳校准性能?
- RQ4一个简单的先池化再校准策略是否能在保持准确率和 NLL/Brier 增益的同时显著降低 ECE?
主要发现
- 集成预测通常会降低置信度,当单个模型过度自信时,这有助于校准,但并不能本质上改善校准。
- Mixup 增强往往使网络变得不太自信,对这样的网络进行集成可能会恶化校准,除非进行恰当的校准。
- 温度缩放应在对预测进行池化(求平均)之后应用,以缓解集成平均带来的置信度不足。
- 先池化再校准(先聚合,再用单一温度进行校准)在若干基准任务的低数据条件下可将 ECE 降至一半。
- 在池化前对单个模型进行校准的效果不如先池化再校准,这与操作顺序及相互作用效应有关。
- 在多个数据集上,像平均/中位数/裁剪池化这样的池化策略呈现不同的增益,其中先池化再校准通常优于简单的平均。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。