QUICK REVIEW

[论文解读] How to Evaluate the Quality of Unsupervised Anomaly Detection Algorithms?

Nicolas Goix|arXiv (Cornell University)|Jul 5, 2016

Anomaly Detection Techniques and Applications被引用 33

一句话总结

本文提出了一种无需标签的评估标准，用于无监督异常检测，采用超额质量（EM）和质量-体积（MV）曲线，并通过特征子采样与聚合方法将其适配于高维数据。该方法在36种算法比较中与标准ROC和PR AUC排名的吻合度达到约80%，证明了其在无标签数据下的强可靠性。

ABSTRACT

When sufficient labeled data are available, classical criteria based on Receiver Operating Characteristic (ROC) or Precision-Recall (PR) curves can be used to compare the performance of un-supervised anomaly detection algorithms. However , in many situations, few or no data are labeled. This calls for alternative criteria one can compute on non-labeled data. In this paper, two criteria that do not require labels are empirically shown to discriminate accurately (w.r.t. ROC or PR based criteria) between algorithms. These criteria are based on existing Excess-Mass (EM) and Mass-Volume (MV) curves, which generally cannot be well estimated in large dimension. A methodology based on feature sub-sampling and aggregating is also described and tested, extending the use of these criteria to high-dimensional datasets and solving major drawbacks inherent to standard EM and MV curves.

研究动机与目标

解决在缺乏标签数据时，无监督异常检测缺乏可靠评估标准的问题。
开发无需标签的性能度量标准，以保持与ROC和PR曲线衡量的异常检测算法排序一致。
将EM和MV曲线的适用性扩展至标准估计方法失效的高维数据集。
在真实世界数据集上，将所提标准与既有的ROC和PR AUC基准进行验证。
为工业环境中标签数据有限的场景，提供一种可扩展、灵活的异常检测算法评估方法。

提出的方法

提出EM和MV曲线作为对评分函数单调变换不变的无标签评估标准。
引入特征子采样与聚合策略，以在高维数据中估计EM和MV曲线，克服维度灾难问题。
使用算法1反复采样特征子集（例如，m=50，d'=5），在每个子集上计算EM/MV得分，并聚合结果以完成最终评估。
基于EM和MV曲线，采用经验风险最小化原则，定义用于算法比较的数值标准。
将该方法应用于真实标签数据集，以ROC和PR AUC为基准进行性能对比，评估时将标签视为隐藏信息。
在12个数据集（如adult、pima、spambase）上验证该方法，涵盖新颖性检测和无监督检测两种框架。

实验结果

研究问题

RQ1EM和MV曲线能否作为无监督异常检测算法评估中ROC和PR AUC的可靠无标签替代方案？
RQ2在标准估计方法失效的高维数据中，如何对EM和MV曲线进行适应性调整？
RQ3EM和MV得分在多大程度上能恢复真实数据集中由ROC和PR AUC确立的算法排序？
RQ4特征子采样与聚合是否能提升高维空间中EM和MV曲线估计的稳定性和准确性？
RQ5在具有复杂异常结构或低维支持的数据集中，EM和MV标准表现如何？

主要发现

基于EM的标准在36次比较中有78%（28/36）正确排名算法对，与ROC AUC对比；在PR AUC对比中正确率达81%（29/36）。
基于MV的标准在全部36次两两比较中与ROC AUC达成75%的一致性，与PR AUC达成72%的一致性；在ROC和PR均一致排序的配对中，一致率达76%。
EM标准在除wilt和shuttle数据集外的所有数据集中，均能正确恢复三个算法（iForest、LOF、OCSVM）的完整排序，其中AUC值非常接近。
MV标准相比EM仅多出一次错误，出现在（pima上的iForest与OCSVM）这一对中，且在高维数据集中表现相似。
在shuttle数据集中，EM和MV标准的准确性均有所下降，可能由于其ROC AUC值非常接近（0.996、0.992、0.999），导致算法区分困难。
特征子采样方法使高维场景下的EM和MV估计变得可靠，其中m=50且d'=5作为平衡的默认配置。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。