Skip to main content
QUICK REVIEW

[论文解读] Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift

Yaniv Ovadia, Emily Fertig|arXiv (Cornell University)|Jun 6, 2019
Adversarial Robustness in Machine Learning参考文献 57被引用 651
一句话总结

这篇论文在数据集分布偏移下对大量不确定性量化方法进行基准测试,显示在独立同分布(i.i.d.)数据上的校准在分布shift下通常失效,深度集成通常提供最稳健的不确定性估计。

ABSTRACT

Modern machine learning methods including deep learning have achieved great success in predictive accuracy for supervised learning tasks, but may still fall short in giving useful estimates of their predictive {\em uncertainty}. Quantifying uncertainty is especially critical in real-world settings, which often involve input distributions that are shifted from the training distribution due to a variety of factors including sample bias and non-stationarity. In such settings, well calibrated uncertainty estimates convey information about when a model's output should (or should not) be trusted. Many probabilistic deep learning methods, including Bayesian-and non-Bayesian methods, have been proposed in the literature for quantifying predictive uncertainty, but to our knowledge there has not previously been a rigorous large-scale empirical comparison of these methods under dataset shift. We present a large-scale benchmark of existing state-of-the-art methods on classification problems and investigate the effect of dataset shift on accuracy and calibration. We find that traditional post-hoc calibration does indeed fall short, as do several other previous methods. However, some methods that marginalize over models give surprisingly strong results across a broad spectrum of tasks.

研究动机与目标

  • 在分布性偏移下对预测不确定性进行稳健评估,超越 i.i.d. 设置。
  • 在多模态(图像、文本、分类数据)上对一系列可扩展的不确定性方法进行基准评估。
  • 评估在偏移下校准与准确性的协变关系,并识别随着偏移增大仍然值得信赖的方法。

提出的方法

  • 比较建模 p(y|x) 的方法,以及建模联合分布或包含 OOD 组件的方法,聚焦于对大规模数据集的可扩展性。
  • 评估 Vanilla、Temperature Scaling、Dropout、Ensembles、随机变分推断(SVI)、最后一层变体(LL-SVI、LL-Dropout)及相关方法。
  • 使用覆盖 MNIST、CIFAR-10、ImageNet、20 Newsgroups 文本数据,以及 Criteo 广告点击数据的数据集。
  • 用准确度、负对数似然、Brier 分数、预期校准误差(ECE)和预测熵等指标评估性能。
  • 同时检查偏移数据和完全 OOD 数据,以观察校准与不确定性行为。

实验结果

研究问题

  • RQ1在数据集偏移下,不同方法的不确定性估计有多可信?
  • RQ2i.i.d. 设置中的校准是否会在数据集偏移下仍然成立?
  • RQ3在数据集偏移下,跨方法和模态的不确定性与准确性如何共同变化?
  • RQ4是否存在在各任务中始终在偏移下表现良好的方法?
  • RQ5在偏移下部署具不确定性感知的模型的实际建议是什么?

主要发现

  • 大多数方法的不确定性质量随着数据集偏移的增加而下降,与方法无关。
  • 在 i.i.d. 数据上的校准不能保证在偏移或 OOD 设置下的校准。
  • 事后校准如温度缩放在较小的偏移下有帮助,但随着偏移增大,被建模本体不确定性的方 法所超越。
  • 深度集成在各指标和模态上始终表现最好,尤其是在较大偏移下。
  • 最后一层 Dropout 变体和 SVI 显示出混合结果,在更大规模的数据 集上可能表现不佳,尽管 SVI 在较简单数据集上可能表现强劲。
  • 集成方法在相对较小的集成规模(例如五个模型)下也能达到很强的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。