Skip to main content
QUICK REVIEW

[论文解读] SSD: A Unified Framework for Self-Supervised Outlier Detection

Vikash Sehwag, Mung Chiang|arXiv (Cornell University)|Mar 22, 2021
Anomaly Detection Techniques and Applications参考文献 53被引用 44
一句话总结

SSD 使用自监督表示学习和马氏距离来检测只使用未标注的同分布数据的分布外(out-of-distribution, OOD)样本,并扩展到少样本 OOD 和带标签辅助检测,取得了强劲的结果。

ABSTRACT

We ask the following question: what training information is required to design an effective outlier/out-of-distribution (OOD) detector, i.e., detecting samples that lie far away from the training distribution? Since unlabeled data is easily accessible for many applications, the most compelling approach is to develop detectors based on only unlabeled in-distribution data. However, we observe that most existing detectors based on unlabeled data perform poorly, often equivalent to a random prediction. In contrast, existing state-of-the-art OOD detectors achieve impressive performance but require access to fine-grained data labels for supervised training. We propose SSD, an outlier detector based on only unlabeled in-distribution data. We use self-supervised representation learning followed by a Mahalanobis distance based detection in the feature space. We demonstrate that SSD outperforms most existing detectors based on unlabeled data by a large margin. Additionally, SSD even achieves performance on par, and sometimes even better, with supervised training based detectors. Finally, we expand our detection framework with two key extensions. First, we formulate few-shot OOD detection, in which the detector has access to only one to five samples from each class of the targeted OOD dataset. Second, we extend our framework to incorporate training data labels, if available. We find that our novel detection framework based on SSD displays enhanced performance with these extensions, and achieves state-of-the-art performance. Our code is publicly available at https://github.com/inspire-group/SSD.

研究动机与目标

  • 仅使用未标注的同分布数据来推动离群点/OOD检测。
  • 开发一个自监督、以聚类为条件的马氏距离检测器,利用同分布特征。
  • 提供少样本 OOD 检测的扩展,以及在可用时引入标签的扩展。

提出的方法

  • 在未标注的同分布数据上,使用对比自监督学习(NT-Xent)训练特征提取器。
  • 将同分布特征划分为簇,并在特征空间中对每个簇使用马氏距离建模。
  • 将离群分数计算为最小簇马氏距离,以检测 OOD 样本。
  • 对于少样本 OOD,使用收缩协方差和数据增强来估计同分布与 OOD 的统计量,采用马氏距离项的差值。
  • 可选地通过有监督对比损失(SSD+)引入标签,以实现无超参数的、最先进的检测。
  • 在 CIFAR-10/100、STL-10、ImageNet 等数据集上,使用 AUROC、FPR at TPR=95%、AUPR 进行评估。

实验结果

研究问题

  • RQ1仅在未标注的同分布数据上训练的离群检测器能否在图像 OOD 任务中达到或超过有监督检测器?
  • RQ2在使用自监督表示进行 OOD 检测时,基于聚类条件的马氏距离检测器的有效性如何?
  • RQ3少样本 OOD 场景是否从带有协方差收缩和数据增强的统计学自适应中受益?
  • RQ4通过有监督对比损失引入标签是否在不调参的情况下提升 OOD 检测性能?

主要发现

  • 在标准图像数据集上,SSD 在大多数无监督离群检测器上取得显著领先。
  • SSD 的性能与使用标注的同分布数据的有监督检测器相当,甚至有时更好。
  • 少样本 OOD 扩展(SSD k)在获取少量定向 OOD 样本并使用带数据增强的收缩协方差时实现显著提升。
  • 通过SSD+和有监督对比损失引入标签可在无额外调参的情况下提供最先进的性能。
  • 在多个数据集对上,自监督表示在 OOD 检测任务中通常优于有监督表示(在若干情形下有显著的 AUROC 提升)。
  • SSD+ 结合五-shot OOD 与标签引入在若干基准测试中可以超越之前的有监督方法(例如 CIFAR-100 与 CIFAR-10 等)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。