[论文解读] A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks
本论文提出一个简单基线,使用最大softmax概率来检测跨视觉、NLP和语音任务中的错误分类和分布外(OOD)样本,并提出一个辅助异常检测器,在某些任务上也能超越基线。
We consider the two related problems of detecting if an example is misclassified or out-of-distribution. We present a simple baseline that utilizes probabilities from softmax distributions. Correctly classified examples tend to have greater maximum softmax probabilities than erroneously classified and out-of-distribution examples, allowing for their detection. We assess performance by defining several tasks in computer vision, natural language processing, and automatic speech recognition, showing the effectiveness of this baseline across all. We then show the baseline can sometimes be surpassed, demonstrating the room for future research on these underexplored detection tasks.
研究动机与目标
- 动机并量化需要在模型将产生错误分类或输入为分布外(OOD)时进行检测。
- 提出一个简单的基线,使用softmax最大概率在多个领域检测错误和OOD输入。
- 通过辅助输入重构来探索改进异常检测,提升超越基线的能力。
- 提供用于评估神经网络中的错误和OOD检测的标准化任务和度量。
提出的方法
- 使用经过训练的分类器的最大softmax概率作为错误分类检测分数,以及用于在/分布内-分布外的判别。
- 在计算机视觉、NLP和自动语音识别等多样任务和数据集上评估基线,报告AUROC和AUPR指标。
- 研究基于重构的辅助模型(一个输入重构解码器加一个异常性模块),以提高对异常输入的检测。
- 证明基于softmax的分数并非直接的置信度估计,但能够有效区分正确与错误,以及in-vs-OOD样本。
- 引入用于错误和OOD检测的标准任务和评估指标,以指导未来工作。
实验结果
研究问题
- RQ1一个基于softmax最大概率的简单基线是否能在多样领域(视觉、NLP、语音)中可靠地检测错误分类的样本?
- RQ2同样的基线是否能有效地区分分布内输入和分布外输入?
- RQ3在特定设置中,基于重构的辅助异常检测器是否能提升超越softmax基线的检测性能?
- RQ4可用于评估神经网络中的错误和分布外检测的标准任务和度量是什么?
主要发现
- Softmax最大概率在检测MNIST、CIFAR-10、CIFAR-100以及NLP/语音任务中的错误分类方面表现得出人意料地有效。
- 该基线还能够在各种数据集上区分分布内和分布外数据(例如SUN、Omniglot、notMNIST、高斯噪声)。
- 在若干任务中,AUC-ROC和AUPR显示出强大的检测性能,尽管该基线并非普遍最优,仍有改进空间。
- 带有输入重构解码器的辅助异常模块在某些场景(如TIMIT、MNIST)可以超过基线,提示内部表示中的额外信息有助于异常检测。
- 该工作展示了跨领域的鲁棒适用性,并为未来在错误和OOD检测的研究提供了基础。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。