[论文解读] Robust Out-of-distribution Detection for Neural Networks
本文展示了现代 OOD 检测器在对同分布和异分布输入进行小幅对抗扰动时的脆弱性,并引入 ALOE,一种鲁棒的对抗性训练方法,以提升 OOD 检测。
Detecting out-of-distribution (OOD) inputs is critical for safely deploying deep learning models in the real world. Existing approaches for detecting OOD examples work well when evaluated on benign in-distribution and OOD samples. However, in this paper, we show that existing detection mechanisms can be extremely brittle when evaluating on in-distribution and OOD inputs with minimal adversarial perturbations which don't change their semantics. Formally, we extensively study the problem of Robust Out-of-Distribution Detection on common OOD detection approaches, and show that state-of-the-art OOD detectors can be easily fooled by adding small perturbations to the in-distribution and OOD inputs. To counteract these threats, we propose an effective algorithm called ALOE, which performs robust training by exposing the model to both adversarially crafted inlier and outlier examples. Our method can be flexibly combined with, and render existing methods robust. On common benchmark datasets, we show that ALOE substantially improves the robustness of state-of-the-art OOD detection, with 58.4% AUROC improvement on CIFAR-10 and 46.59% improvement on CIFAR-100.
研究动机与目标
- 在开放世界部署中推动鲁棒的 OOD 检测,使输入可能被对抗性扰动。
- 展示现有 OOD 检测器在小规模、语义保持的扰动下的脆弱性。
- 提出 ALOE,通过对内样本和对外样本的对抗性训练来强化 OOD 检测器的鲁棒性。
- 提供实证证据,表明 ALOE 在提升鲁棒性的同时能够保持分类准确率。
- 提供可复用的代码库以促进可重复性和后续研究。
提出的方法
- 在输入的 epsilon-ball 内形式化定义鲁棒的 OOD 检测与对抗扰动。
- 提出 ALOE:一种对抗性训练,包括最大化负对数似然的同分布扰动和最大化对均匀分布的 KL 散度的离群扰动。
- 将训练框架设定为通过投影梯度下降(PGD)解决的最小-最大优化。
- 允许将 ALOE 与现有检测器(如 MSP、ODIN)集成以增强鲁棒性。
- 讨论聚焦于对内扰动的 ADV 与对内外扰动组合的 AOE 的变体。
- 发布配套代码以支持可重复性。
实验结果
研究问题
- RQ1现有的 OOD 检测器是否会在对同分布和异分布输入进行小规模、语义保持的对抗扰动时失效?
- RQ2在此类攻击下,鲁棒训练范式(ALOE)是否能显著提升 OOD 检测性能?
- RQ3ALOE 如何与像 ODIN 这样的其他检测器互动并可能提升其性能?
- RQ4对干净(未攻击)分类准确率的对抗性训练影响是什么?
- RQ5为何针对分类器的对抗性扰动应被视为用于 OOD 目标的同分布数据,有哪些洞见?
主要发现
- 经典 OOD 检测器(MSP、ODIN、Mahalanobis、OE)在对抗扰动下(epsilon = 1/255, m = 10)显著下降。
- ALOE 显著提升鲁棒 OOD 检测,例如在攻击下对 CIFAR-10 的 AUROC 提升高达 58.4%,对 CIFAR-100 提升 46.59%(相对于先前方法)。
- ALOE 可以与 ODIN 结合以获得进一步性能提升,且通常保持或接近干净准确度。
- 在其鲁棒框架下,针对图像分类器 f(x) 的小扰动对抗样本往往属于同分布而非 OOD。
- 一个使用内样本扰动和基于 KL 散度的离群暴露的鲁棒训练目标,在所评估的变体中提供了最强的鲁棒性增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。