[论文解读] Uncertainty Estimation Using a Single Deep Deterministic Neural Network
DUQ 在单次前向传播中使用带类别质心的确定性深度模型和类似RBF的核来估计预测不确定性,从而实现 OoD 检测并在梯度正则化的雅可比矩阵下获得具有竞争力的准确度。
We propose a method for training a deterministic deep model that can find and reject out of distribution data points at test time with a single forward pass. Our approach, deterministic uncertainty quantification (DUQ), builds upon ideas of RBF networks. We scale training in these with a novel loss function and centroid updating scheme and match the accuracy of softmax models. By enforcing detectability of changes in the input using a gradient penalty, we are able to reliably detect out of distribution data. Our uncertainty quantification scales well to large datasets, and using a single model, we improve upon or match Deep Ensembles in out of distribution detection on notable difficult dataset pairs such as FashionMNIST vs. MNIST, and CIFAR-10 vs. SVHN.
研究动机与目标
- 旨在训练一个能够在单次前向传播中检测出分布外数据的确定性模型。
- 稳定基于质心的RBF-like网络的训练以达到 Softmax 的准确度。
- 通过对输入变化的敏感性进行雅可比正则化来实现可靠的 OoD 检测。
- 研究梯度约束对不确定性质量和泛化的影响。
- 在标准 OoD 基准上评估 DUQ,并考察超参数的影响。
提出的方法
- 用深度特征提取器 f_theta 表示输入,随后是类别特定的质心 e_c 以及定义针对每个质心的 RBF-like 核的线性映射 W_c。
- 预测通过选择最近的质心来实现,K_c = exp(-||W_c f_theta(x) - e_c||^2 / (2 sigma^2)),不确定性为到最近质心的距离。
- 使用多变量伯努利风格的损失进行训练,最小化正确质心的距离,同时最大化对其他质心的距离(one-vs-rest)。
- 通过对类别特定特征的指数加权移动平均更新质心 e_c 以 gamma 为动量来稳定训练。
- 对输出对输入的梯度雅可比进行梯度惩罚正则化,以强制 Lipschitz 约束并防止特征坍缩。
- 引入双边梯度惩罚,目标是 K_c 和的梯度范数,以提升对敏感性和 OoD 检测的效果,相较于单边惩罚表现更好。
- 与 softmax 基线和 Deep Ensembles 进行比较,展示在单次前向传播的不确定性估计方面具有竞争力的准确度。
实验结果
研究问题
- RQ1一个确定性、基于质心的深度模型是否能够在不依赖集成或 MC 采样的情况下在单次前向传播中提供可靠的预测不确定性?
- RQ2基于梯度的雅可比正则化如何影响不确定性质量和 RBF-like 网络架构中的特征坍缩?
- RQ3超参数(长度尺度 sigma 和梯度惩罚 lambda)对在不同数据集上的准确度与 OoD 检测性能有何影响?
- RQ4在诸如 FashionMNIST 与 MNIST、CIFAR-10 与 SVHN 等具有挑战性的 OoD 基准上,DUQ 相较 Deep Ensembles 和其他基线的表现如何?
- RQ5DUQ 能否区分 epistemic 与 aleatoric 不确定性,以及如何在特征空间中放置质心以反映这些不确定性?
主要发现
| λ | Acc (FM) | AUROC (NM) | AUROC (M) |
|---|---|---|---|
| 0 | 92.4% ±0.2 | 0.933 ±0.009 | 0.948 ±0.004 |
| 0.05 | 92.4% ±0.2 | 0.946 ±0.018 | 0.955 ±0.007 |
| 0.1 | 92.4% ±0.1 | 0.938 ±0.0018 | 0.948 ±0.005 |
| 0.2 | 92.2% ±0.1 | 0.945 ±0.019 | 0.944 ±0.011 |
| 0.3 | 92.3% ±0.1 | 0.944 ±0.013 | 0.941 ±0.011 |
| 0.5 | 92.0% ±0.1 | 0.946 ±0.014 | 0.932 ±0.009 |
| 1.0 | 91.9% ±0.1 | 0.945 ±0.018 | 0.934 ±0.006 |
- DUQ 在标准数据集(如 FashionMNIST 和 CIFAR-10)上与 softmax 基线具有具有竞争力的准确度,同时提供单次前向的不确定性估计。
- 对雅可比的双边梯度惩罚在 OoD 任务中提升了分布外检测并防止特征坍缩,优于单边惩罚。
- 在 FashionMNIST vs MNIST 的情景下,带梯度惩罚的 DUQ 在将分布内数据与分布外数据分离的 AUROC 上优于若干基线,lambda=0.05–0.1 时表现强劲。
- DUQ 能在FashionMNIST 的实验中将分布外数据(如 MNIST、NotMNIST)与分布内数据分离,AUROC 大约为 0.95,并保持具有竞争力的准确度(如约 92.4% 的 FashionMNIST)。
- 在 CIFAR-10 vs SVHN 的场景中,DUQ 展现出单模型的竞争性 OoD 检测性能,尽管在某些复杂数据集上 Deep Ensembles 可能表现更好;梯度惩罚相比无惩罚显著提升了 OoD 检测。
- 相较 Deep Ensembles,DUQ 的训练与推理成本显著降低,特别是在测试阶段,因为 DUQ 仅需单次前向传播来进行不确定性估计。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。