[论文解读] A Less Biased Evaluation of Out-of-distribution Sample Detectors
本文提出 OD-test,一种基于三数据集的评估框架,以减少分布外(OOD)样本检测中的偏差,揭示现有方法在高维图像上的准确率仅为 60–78%,远低于可靠性能水平,在真实条件下表现令人质疑,挑战了以往过于乐观的基准测试。
In the real world, a learning system could receive an input that is unlike anything it has seen during training. Unfortunately, out-of-distribution samples can lead to unpredictable behaviour. We need to know whether any given input belongs to the population distribution of the training/evaluation data to prevent unpredictable behaviour in deployed systems. A recent surge of interest in this problem has led to the development of sophisticated techniques in the deep learning literature. However, due to the absence of a standard problem definition or an exhaustive evaluation, it is not evident if we can rely on these methods. What makes this problem different from a typical supervised learning setting is that the distribution of outliers used in training may not be the same as the distribution of outliers encountered in the application. Classical approaches that learn inliers vs. outliers with only two datasets can yield optimistic results. We introduce OD-test, a three-dataset evaluation scheme as a more reliable strategy to assess progress on this problem. We present an exhaustive evaluation of a broad set of methods from related areas on image classification tasks. Contrary to the existing results, we show that for realistic applications of high-dimensional images the previous techniques have low accuracy and are not reliable in practice.
研究动机与目标
- 解决现有基准中仅使用两个数据集(内插样本和异常样本)对 OOD 检测器进行评估时存在的过度乐观问题。
- 提出一种更贴近现实的评估框架,通过引入第三个多样化异常样本数据集,以涵盖未见的异常类型(未知的未知)。
- 为多种图像分类数据集和模型提供全面且无偏见的 OOD 检测基准。
- 证明当前最先进方法在真实高维设置下表现欠佳,从而削弱其实际可靠性。
- 发布一个 PyTorch 工具包以确保可复现性,并鼓励社区采用 OD-test 评估协议。
提出的方法
- 提出 OD-test:一种基于三数据集的评估方案,使用训练集(ID)、验证集(已知异常样本)和测试集(未见异常样本),以模拟真实世界中的 OOD 检测场景。
- 使用多个多样化异常数据集(如 CIFAR-10、SVHN、Tiny ImageNet、LSUN、ImageNet-1000)来评估不同异常类型下的泛化能力。
- 评估 12 种 OOD 检测方法,包括不确定性估计(MC-Dropout、Deep Ensemble)、基于重构(AEThreshold、VAE)、密度估计(PixelCNN++)以及对抗风格方法(ODIN)。
- 通过计算所有异常数据集组合下的平均准确率,以减少单一异常分布带来的偏差。
- 使用标准图像分类模型(VGG、ResNet)作为基础分类器,并在其 logits 或特征表示上应用 OOD 检测器。
- 在最后一层特征或 softmax 概率上应用阈值法和基于距离的方法,以检测 OOD 样本。
实验结果
研究问题
- RQ1与标准的两数据集基准相比,OOD 检测器在更贴近现实的三数据集设置(OD-test)下性能如何退化?
- RQ2OOD 检测方法在未在训练中见过的异常分布上,其泛化能力如何?
- RQ3在高维图像设置下,不同 OOD 检测技术(如不确定性估计、重构方法、密度估计)之间的表现如何比较?
- RQ4更高的图像分类准确率是否意味着更好的 OOD 检测性能?
- RQ5哪种 OOD 检测方法在验证集上对特定异常分布的过拟合风险最低?
主要发现
- 所有评估的 OOD 检测方法在高维图像设置下的性能显著下降,平均准确率在 60% 至 78% 之间,表明其在实际应用中可靠性较差。
- AEThreshold 和 PixelCNN++ 等方法在低维数据集(如 MNIST)上表现良好,但在复杂高维数据(如 ImageNet)上迅速退化。
- 在高维设置下,ODIN 在所有方法中表现最佳,但准确率仍不足 80%,表明其实际应用价值有限。
- 两数据集评估方案导致结果过于乐观,尤其对 VGG 和 ResNet,且无法检测对特定异常分布的过拟合。
- 基于不确定性的方法(如 MC-Dropout 和 Deep Ensemble)在 OOD 检测中不可靠,其在不同数据集上表现低且不一致。
- 将标准自编码器的潜在表示与最近邻方法结合,无法有效用于 OOD 检测,且在某些情况下,PixelCNN++ 的密度估计甚至低于随机基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。