QUICK REVIEW

[論文レビュー] How to Evaluate the Quality of Unsupervised Anomaly Detection Algorithms?

Nicolas Goix|arXiv (Cornell University)|Jul 5, 2016

Anomaly Detection Techniques and Applications被引用数 33

ひとこと要約

本稿では、特徴量の部分抽出と集約を用いて高次元データに適応した、Excess-Mass (EM) および Mass-Volume (MV) 曲線を用いた、ラベルなしの異常検出評価基準を提案する。36件のアルゴリズム比較において、標準的な ROC および PR AUC ランキングと約 80% の一致を示し、ラベルなしでも高い信頼性を示している。

ABSTRACT

When sufficient labeled data are available, classical criteria based on Receiver Operating Characteristic (ROC) or Precision-Recall (PR) curves can be used to compare the performance of un-supervised anomaly detection algorithms. However , in many situations, few or no data are labeled. This calls for alternative criteria one can compute on non-labeled data. In this paper, two criteria that do not require labels are empirically shown to discriminate accurately (w.r.t. ROC or PR based criteria) between algorithms. These criteria are based on existing Excess-Mass (EM) and Mass-Volume (MV) curves, which generally cannot be well estimated in large dimension. A methodology based on feature sub-sampling and aggregating is also described and tested, extending the use of these criteria to high-dimensional datasets and solving major drawbacks inherent to standard EM and MV curves.

研究の動機と目的

ラベル付きデータが利用できない状況における、非教師あり異常検出のための信頼できる評価基準の欠如に対処すること。
ROC および PR 曲線で測定された異常検出アルゴリズムの順序を保持する、ラベルなしのパフォーマンス指標を開発すること。
標準的な推定が失敗する高次元データセットへの EM および MV 曲線の適用可能性を拡張すること。
実世界のデータセットを用いて、提案された基準を確立された ROC および PR AUC ベンチマークと照合すること。
ラベル付けが限られている産業現場における異常検出アルゴリズムの評価に、スケーラブルで柔軟な手法を提供すること。

提案手法

スコア関数の増加変換に対して不変であるEMおよびMV曲線を、ラベルなしの評価基準として提案する。
次元の呪いを克服するため、高次元データにおけるEMおよびMV曲線の推定に、特徴量の部分抽出と集約戦略を導入する。
アルゴリズム1を用い、繰り返し特徴量のサブセット（例：m=50, d'=5）を抽出し、各サブセットでEM/MVスコアを計算し、最終的な評価のための結果を集約する。
EMおよびMV曲線に基づく数値的基準を、経験的リスク最小化の原則を用いて定義し、アルゴリズムの比較に用いる。
ラベル付きの実データセットを用いて、EM/MV評価中にラベルを非表示にした状態で、ROCおよびPR AUCと比較して性能をベンチマークする。
12のデータセット（例：adult, pima, spambase）を用い、新規性検出および非教師あり検出の両フレームワークで、本手法を検証する。

実験結果

リサーチクエスチョン

RQ1EMおよびMV曲線は、非教師あり異常検出アルゴリズムの評価において、ROCおよびPR AUCの信頼できるラベルなし代替手段として機能するか？
RQ2標準的な推定が失敗する高次元データにおいて、EMおよびMV曲線はどのように適応可能になるか？
RQ3EMおよびMVスコアは、実データセットにおいてROCおよびPR AUCによって確立されたアルゴリズムの順序をどの程度回復するか？
RQ4特徴量の部分抽出と集約は、高次元におけるEMおよびMV曲線推定の安定性と正確性を向上させるか？
RQ5複雑な異常構造や低次元部分空間を持つデータセットにおいて、EMおよびMV基準はどのように性能を示すか？

主な発見

EM基準は、ROC AUCと比較して36組の比較のうち78%（28/36）でアルゴリズムペアの順序を正しくランク付けしており、PR AUCと比較すると81%（29/36）の一致を示した。
MV基準は、全36組のペアワイズ比較においてROC AUCと75%、PR AUCと72%の一致を示した。ROCおよびPRの両方で一貫して順序付けられたペアでは76%の一致を達成した。
EM基準は、wiltおよびshuttleを除くすべてのデータセットで、iForest、LOF、OCSVMの3つのアルゴリズムの完全な順序を正しく回復した。
MV基準はEMと比較して1つの追加誤り（pimaでのiForestとOCSVMのペア）を示したが、高次元データセットでも同様の性能を示した。
shuttleデータセットでは、両方のEMおよびMV基準が精度を低下させたが、これは非常に近いROC AUCスコア（0.996、0.992、0.999）により、アルゴリズムの区別が困難だったためと推測される。
特徴量の部分抽出手法により、高次元環境におけるEMおよびMV推定が信頼できるものとなった。m=50およびd'=5は、バランスの取れたデフォルト設定として機能した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。