[论文解读] Uncertainty Toolbox: an Open-Source Library for Assessing, Visualizing, and Improving Uncertainty Quantification
本文提出 Uncertainty Toolbox,这是一个用于评估、可视化和重新校准回归中不确定性量化(UQ)的开源 Python 库,利用一系列指标和可视化来比较概率性神经网络的不同损失目标。
With increasing deployment of machine learning systems in various real-world tasks, there is a greater need for accurate quantification of predictive uncertainty. While the common goal in uncertainty quantification (UQ) in machine learning is to approximate the true distribution of the target data, many works in UQ tend to be disjoint in the evaluation metrics utilized, and disparate implementations for each metric lead to numerical results that are not directly comparable across different works. To address this, we introduce Uncertainty Toolbox, an open-source python library that helps to assess, visualize, and improve UQ. Uncertainty Toolbox additionally provides pedagogical resources, such as a glossary of key terms and an organized collection of key paper references. We hope that this toolbox is useful for accelerating and uniting research efforts in uncertainty in machine learning.
研究动机与目标
- 在回归设置中推动对预测不确定性的稳健评估,以实现对不同 UQ 方法的公平比较。
- 提供一个统一的工具箱,其中包含经过校准的度量、重新校准工具和分布预测的可视化工具。
- 表明需要多种评估度量来进行全面的 UQ 评估,并展示重新校准如何改善校准。
- 提供教育资源(术语表和论文推荐),帮助新手和研究人员有效使用 UQ 工具。
提出的方法
- 描述 Uncertainty Toolbox 的四个主要功能:评估度量、通过等距回归进行重新校准、可视化,以及教育资源。
- 总结并形式化用于预测性 UQ 的评估度量,包括校准、分组校准、锐度以及恰当评分规则。
- 通过一个案例研究演示工具箱的用法,训练具有不同损失函数的概率神经网络并使用多种度量进行评估。
- 实现重新校准过程以提高分布预测的平均校准。
- 提供一个带有合成数据集、多个损失函数(NLL、CRPS、Check、Interval)以及一套 UQ 诊断的案例研究工作流。
- 使用一系列指标比较方法,以说明指标之间潜在的冲突与互补信息。
实验结果
研究问题
- RQ1统一工具箱如何改善回归任务中不确定性量化的可比性?
- RQ2在不同损失目标下,常见的 UQ 评估度量的优点与局限是什么?
- RQ3重新校准(如等距回归)是否能改善概率神经网络分布预测的平均校准?
- RQ4多种指标是否提供超越单一分数评估的对 UQ 质量的互补洞察?
主要发现
| 指标 | NLL | CRPS | Check | Interval | 真实值 |
|---|---|---|---|---|---|
| RMSE | 1.689 | 1.023 | 1.045 | 1.169 | 0.962±0.064 |
| MAE | 0.852 | 0.661 | 0.672 | 0.745 | 0.618±0.042 |
| ECE | 0.057 | 0.056 | 0.092 | 0.039 | 0.019±0.002 |
| Sharpness | 1.451 | 0.729 | 0.720 | 0.722 | 0.925±0.052 |
| NLL | 2.214 | 1.266 | 4.264 | 0.780 | -0.083 |
| CRPS | 0.604 | 0.427 | 0.434 | 0.447 | 0.370 |
| Check | 0.305 | 0.215 | 0.219 | 0.226 | 0.187 |
| Interval | 2.990 | 2.323 | 2.434 | 2.309 | 1.758 |
- 一系列校准、锐度和恰当评分度量比任何单一指标都能更细致地揭示 UQ 质量。
- 不同的损失目标(NLL、CRPS、Check、Interval)在校准和锐度上呈现不同的行为,且没有一种方法在所有指标上都占优。
- 对抗性分组校准和其他校准诊断显示,某些方法在输入域的子集上比在平均水平更好地校准。
- 通过等距回归的重新校准可以改善分布预测的平均校准。
- 恰当评分规则捕捉校准与锐度之间的权衡,并且可能在使用的指标不同情况下对方法进行不同排序。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。