QUICK REVIEW

[论文解读] Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep Learning

Zachary Nado, Neil Band|arXiv (Cornell University)|Jun 7, 2021

Adversarial Robustness in Machine Learning参考文献 31被引用 31

一句话总结

本文介绍了 Uncertainty Baselines，这是一个全面的库，提供了在 9 种不同任务（涵盖图像、表格和文本模态）上 19 种最先进深度学习方法的高质量、可复现的实现。该框架提供了标准化的评估指标、模型检查点和实验笔记，以实现对不确定性与鲁棒性技术的公平、可扩展且可复现的基准测试。

ABSTRACT

High-quality estimates of uncertainty and robustness are crucial for numerous real-world applications, especially for deep learning which underlies many deployed ML systems. The ability to compare techniques for improving these estimates is therefore very important for research and practice alike. Yet, competitive comparisons of methods are often lacking due to a range of reasons, including: compute availability for extensive tuning, incorporation of sufficiently many baselines, and concrete documentation for reproducibility. In this paper we introduce Uncertainty Baselines: high-quality implementations of standard and state-of-the-art deep learning methods on a variety of tasks. As of this writing, the collection spans 19 methods across 9 tasks, each with at least 5 metrics. Each baseline is a self-contained experiment pipeline with easily reusable and extendable components. Our goal is to provide immediate starting points for experimentation with new methods or applications. Additionally we provide model checkpoints, experiment outputs as Python notebooks, and leaderboards for comparing results. Code available at https://github.com/google/uncertainty-baselines.

研究动机与目标

解决深度学习模型中不确定性与鲁棒性评估缺乏可复现、标准化基准的问题。
提供一个统一、文档齐全且易于维护的代码库，以减少比较和扩展现有方法所需的工作量。
使研究人员和从业者能够通过一致的实验协议，快速原型设计并评估新的不确定性估计技术。
支持多种模态（图像、表格、文本）和真实世界数据集，包括 CIFAR、ImageNet、Diabetic Retinopathy 和 CLINC Intent Detection。
通过共享指标、检查点和排行榜，建立社区范围内的不确定性与分布外鲁棒性评估标准。

提出的方法

将每个基线设计为自包含、依赖最少的实验流水线，明确分离数据加载、模型定义、训练和评估组件。
实现模块化架构，支持 TensorFlow 和 PyTorch 后端，确保模型和数据集之间接口一致。
集成标准化的预处理流水线（例如，随机裁剪、翻转、归一化），通过无状态随机操作实现确定性行为。
支持广泛的不确定性估计方法，包括 MC-Dropout、贝叶斯神经网络（BNNs）、SNGP、BatchEnsemble 和集成方法。
通过准随机搜索进行超参数调优，对关键基准（如 Diabetic Retinopathy）进行多轮调优，随后在合并的训练/验证集上进行最终微调。
以可重用的 Python 笔记本和模型检查点形式提供实验输出，以确保完全可复现性并便于扩展。

实验结果

研究问题

RQ1我们如何在多样化任务和模态上建立一个标准化、可复现的不确定性与鲁棒性基准测试框架？
RQ2在图像、表格和基于文本的基准上，现代不确定性估计方法（如 SNGP、MC-Dropout、BNNs）的相对性能如何？
RQ3在一致且充分调优的协议下，简单基线方法在多大程度上优于复杂方法？
RQ4不同的优化策略（如 AdamW、RMSProp、Nesterov）以及学习率调度对不确定性校准和鲁棒性有何影响？
RQ5一个统一的、社区维护的库是否能显著降低研究人员探索深度学习中不确定性问题的入门门槛？

主要发现

Uncertainty Baselines 库在 9 项任务中包含总计 83 个基线，19 种不同方法在每项任务中均使用至少 5 项标准化指标进行评估。
在 Diabetic Retinopathy 基准上，通过准随机搜索进行超参数调优，在 10 次随机种子运行下，最终验证 AUC 提升最高达 0.91，实现了可靠的比较。
SNGP 和 MC-Dropout 在图像和文本任务中均表现出色，其中 SNGP 在 CIFAR-10 和 ImageNet 上展现出优异的校准性能。
集成方法和超深度集成方法在多个基准上表现出高准确率和鲁棒性，尽管推理延迟有所增加。
变分推断和径向 BNNs 在表格数据（UCI）和医学影像（Diabetic Retinopathy）任务中表现具有竞争力，验证了其在视觉领域之外的适用性。
该库的标准化训练和评估协议使得方法间的直接比较成为可能，结果表明在充分调优后，MC-Dropout 等简单方法通常优于更复杂的模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。