QUICK REVIEW

[论文解读] Out-of-Distribution Detection using Multiple Semantic Label Representations

Gabi Shalev, Yossi Adi|arXiv (Cornell University)|Aug 20, 2018

Adversarial Robustness in Machine Learning参考文献 40被引用 37

一句话总结

该论文提出了一种新颖的分布外（OOD）检测方法，通过在训练过程中使用多种语义词嵌入作为监督信号，使模型能够通过其输出表征的L2-范数检测分布外、对抗性及误分类样本。该方法在对抗性样本上的检测率达到62.04%，比集成基线高出18%，同时通过监督中的语义多样性保持了鲁棒性。

ABSTRACT

Deep Neural Networks are powerful models that attained remarkable results on a variety of tasks. These models are shown to be extremely efficient when training and test data are drawn from the same distribution. However, it is not clear how a network will act when it is fed with an out-of-distribution example. In this work, we consider the problem of out-of-distribution detection in neural networks. We propose to use multiple semantic dense representations instead of sparse representation as the target label. Specifically, we propose to use several word representations obtained from different corpora or architectures as target labels. We evaluated the proposed model on computer vision, and speech commands detection tasks and compared it to previous methods. Results suggest that our method compares favorably with previous work. Besides, we present the efficiency of our approach for detecting wrongly classified and adversarial examples.

研究动机与目标

为解决深度神经网络中分布外输入检测的关键挑战，即模型常对输入产生过度自信的预测。
在无需集成训练或架构修改的前提下，改进DNN的不确定性估计。
利用词嵌入中的语义多样性作为监督冗余形式，以增强检测的鲁棒性。
探究模型输出表征的L2-范数是否可作为可靠的OOD检测分数。
在视觉与语音任务上评估该方法，涵盖对抗性样本与误分类样本。

提出的方法

使用来自不同语料库或架构的多种不同词嵌入作为每类的标签，替代标准的独热编码进行模型训练。
每个类别由K种不同的语义表征进行监督，模型学习K个回归头，从输入特征中预测这些嵌入。
推理阶段，聚合所有K个回归头的预测结果，使用输出向量的L2-范数作为OOD检测的置信度分数。
该方法利用嵌入之间的语义结构，生成语义一致的预测，同时通过不同训练数据与架构引入多样性。
所有回归头共享相同的特征表示，实现参数效率与共享特征学习。
通过在验证数据上进行经验调优，设定L2-范数的阈值，将输入分类为分布内或分布外。

实验结果

研究问题

RQ1与标准独热编码相比，使用多种语义词嵌入作为监督是否能提升分布外检测性能？
RQ2模型输出表征的L2-范数是否与不确定性及OOD状态相关？
RQ3在检测对抗性样本方面，该方法与基于集成的方法相比表现如何？
RQ4L2-范数是否也能检测误分类样本，且其表征范数是否存在一致模式？
RQ5该方法是否可在无需架构修改或额外训练的前提下，仅通过标准监督检测OOD输入？

主要发现

所提方法在对抗性样本上的检测率达到62.04%，显著高于集成基线的43.88%。
当假阳性率被限制在3%时，所提方法检测率达到28.64%，而集成方法为15.41%，提升13个百分点。
在对抗性样本上，模型表现出比集成方法更高的预测器间分歧（以排名差异衡量），表明对扰动具有更好的敏感性。
错误分类与分布外样本在输出表征中的L2-范数始终显著低于正确分类样本。
在ImageNet OOD检测中，该方法AUC-ROC达到89.58，AUPR-Out达到47.2，优于集成基线的AUPR-Out。
输出表征的L2-范数被证实是不确定性的一个可靠指标，与先前关于表征范数的研究发现一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。