QUICK REVIEW

[论文解读] Pitfalls of In-Domain Uncertainty Estimation and Ensembling in Deep Learning

Arsenii Ashukha, Alexander Lyzhov|arXiv (Cornell University)|Feb 15, 2020

Adversarial Robustness in Machine Learning参考文献 53被引用 111

一句话总结

本文分析图像分类的域内不确定性估计，揭示常用度量的陷阱，并引入深度集成等效（DEE）分数以比较集成方法，结果显示深度集成通常优于其他方法，且测试时数据增强可以显著提升性能。

ABSTRACT

Uncertainty estimation and ensembling methods go hand-in-hand. Uncertainty estimation is one of the main benchmarks for assessment of ensembling performance. At the same time, deep learning ensembles have provided state-of-the-art results in uncertainty estimation. In this work, we focus on in-domain uncertainty for image classification. We explore the standards for its quantification and point out pitfalls of existing metrics. Avoiding these pitfalls, we perform a broad study of different ensembling techniques. To provide more insight in this study, we introduce the deep ensemble equivalent score (DEE) and show that many sophisticated ensembling techniques are equivalent to an ensemble of only few independently trained networks in terms of test performance.

研究动机与目标

评估 DNNs 的域内不确定性度量的可靠性与可比性。
在标准图像分类基准上评估广泛的集成技术。
引入校准对数似然和 DEE 分数，在跨数据集公平比较集成方法。
研究测试时数据增强对不确定性估计和校准的影响。

提出的方法

综述常见的域内不确定性度量（LL、Brier 分数、校准指标）并揭示它们的陷阱。
提出在最优温度下评估的校准对数似然作为公平度量。
定义并计算深度集成等效（DEE）分数以将集成方法与深度集成进行比较。
在 CIFAR-10/100 和 ImageNet 上评估一系列集成技术（深度集成、SSE、FGE、SWAG、VI、K-FAC Laplace、dropout、TTA）。
将测试时数据增强（TTA）作为基线进行分析，并考察其与校准和温度缩放的交互。
使用经校准的对数似然和 DEE，在架构（VGG16、PreResNet、WideResNet、ResNet50）上量化性能。

实验结果

研究问题

RQ1当比较不同模型时，标准域内不确定性度量的局限性是什么？
RQ2各种集成技术在域内数据上的预测性能和校准方面的比较如何？
RQ3是否存在一个统一、可解释的度量（DEE）能够在跨数据集和架构中公正地对集成方法进行排序？
RQ4测试时数据增强在改进域内不确定性估计和校准中扮演何种角色？

主要发现

许多常见的域内不确定性度量（对数似然、Brier 分数、校准指标）在不同模型之间并不能可靠地比较，且可能错误排序方法。
在最优温度下评估的校准对数似然提供了更稳定、可比的域内不确定性度量。
深度集成等效（DEE）分数通过等价深度集成的规模来比较集成方法；在给定测试时预算下，深度集成通常优于其他方法。
测试时数据增强（TTA）显著提升集成性能，特别是在 ImageNet 上，且成本极低就能媲美更大的集成。
探索多损失景观模式的方法（深度集成、快照集成、循环 SGLD）在 CIFAR 和 ImageNet 的 DEE 方面优于单一模态方法，如 dropout、VI 和 K-FAC Laplace；在合适的温度缩放下，TTA 进一步提升校准和准确性。
SSE 与 cSGLD 有效探索损失景观模式，但其收益取决于超参数和数据集；DEE 有助于诊断何时出现饱和或欠拟合。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。