[论文解读] On the Importance of Gradients for Detecting Distributional Shifts in the Wild
GradNorm 使用梯度范数来衡量软max预测与均匀目标之间的 KL 散度,并将其作为 OOD 分数;通过利用梯度空间信息,在 ImageNet 基准上实现了最先进的检测性能。在相同基准上实现了优越的检测效果。
Detecting out-of-distribution (OOD) data has become a critical component in ensuring the safe deployment of machine learning models in the real world. Existing OOD detection approaches primarily rely on the output or feature space for deriving OOD scores, while largely overlooking information from the gradient space. In this paper, we present GradNorm, a simple and effective approach for detecting OOD inputs by utilizing information extracted from the gradient space. GradNorm directly employs the vector norm of gradients, backpropagated from the KL divergence between the softmax output and a uniform probability distribution. Our key idea is that the magnitude of gradients is higher for in-distribution (ID) data than that for OOD data, making it informative for OOD detection. GradNorm demonstrates superior performance, reducing the average FPR95 by up to 16.33% compared to the previous best method.
研究动机与目标
- 在实际部署中动机并研究分布外(OOD)检测。
- 研究梯度空间是否携带有信息信号用于 ID vs. OOD 分离。
- 提出 GradNorm 作为一个简单、与标签和 OOD 无关的基于梯度的评分方法。
- 理论与实证表明来自特征空间和输出空间的梯度信息的联合可以提升可分性。
提出的方法
- 对 softmax 输出与均匀分布之间的 KL 散度进行反向传播,以获取相对于网络参数的梯度。
- 将 GradNorm 定义为关于选定参数的梯度的 Lp 范数(通常为 L1),最好是在最后一层全连接层。
- 使用梯度范数作为 OOD 分数 S(x),以区分 ID 与 OOD 数据。
- 在 ImageNet-1k 及其他基准上将 GradNorm 与 MSP、ODIN、Energy 和 Mahalanobis 进行经验比较。
- 对梯度深度、范数类型(L1 最有效)、温度 T 和模型容量进行消融研究。
- 提供一个理论分解,展示 GradNorm 捕捉来自特征空间和输出空间的联合信息。
实验结果
研究问题
- RQ1梯度(不仅是输出或特征)是否能揭示用于区分 ID 与 OOD 数据的判别信息?
- RQ2GradNorm(对均匀目标的 KL 散度的梯度范数)是否是一个实用、参数高效的 OOD 分数,无需标签或异常数据?
- RQ3哪种梯度来源(深度、最后一层与所有层)和哪种范数最能优化 OOD 检测性能?
- RQ4与最先进的输出和特征基方法在大规模基准上相比,GradNorm 的表现如何?
- RQ5从特征空间和输出空间信息的理论解释如何描述 GradNorm?
主要发现
| Method | iNaturalist FPR95 | iNaturalist AUROC | SUN FPR95 | SUN AUROC | Places FPR95 | Places AUROC | Textures FPR95 | Textures AUROC | Average FPR95 | Average AUROC |
|---|---|---|---|---|---|---|---|---|---|---|
| MSP | 63.69 | 87.59 | 79.98 | 78.34 | 81.44 | 76.76 | 82.73 | 74.45 | 81.44 | 76.96 |
| ODIN | 62.69 | 89.36 | 71.67 | 83.92 | 76.27 | 80.67 | 81.31 | 76.30 | 72.99 | 82.56 |
| Energy | 64.91 | 88.48 | 65.33 | 85.32 | 73.02 | 81.37 | 80.87 | 75.79 | 71.03 | 82.74 |
| Mahalanobis | 96.34 | 46.33 | 88.43 | 65.20 | 89.75 | 64.46 | 52.23 | 72.10 | 81.69 | 62.02 |
| GradNorm (ours) | 50.03 | 90.33 | 46.48 | 89.03 | 60.86 | 84.82 | 61.42 | 81.07 | 54.70 | 86.31 |
- GradNorm 在 ImageNet-1k 基准的四个 OOD 数据集上优于领先基线(MSP、ODIN、Energy、Mahalanobis),将 FPR95 降低最多 16.33%。
- 使用来自最后一层全连接层的梯度能带来最佳的 OOD 检测性能。
- 最后一层梯度的 L1 范数比测试的其它范数提供更强的结果,高阶范数表现更差。
- 将 KL 散度的目标设为均匀目标比使用一个 one-hot 目标能获得更好的分离性。
- GradNorm 可以在不额外训练的情况下应用,并且在不同架构(ResNetv2-101 和 DenseNet-121)上都有效。
- 该方法有效捕捉来自特征空间和输出空间的联合信息,相比单独使用任一空间,分离性有所提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。