QUICK REVIEW

[논문 리뷰] Unsupervised anomaly detection algorithms on real-world data: how many do we need?

Roel Bouman, Zaharah Bukhsh|arXiv (Cornell University)|2023. 05. 01.

Anomaly Detection Techniques and Applications인용 수 12

한 줄 요약

이 논문은 52개의 실제 다변수 데이터셋에서 32개의 비감독 이상 탐지 알고리즘을 벤치마크하고, 지역 이상치에선 kNN이 주도하고 전역 이상치에선 EIF가 주도하며, 세 가지 알고리즘 도구상자가 전체적으로 충분하다고 결론 내립니다.

ABSTRACT

In this study we evaluate 32 unsupervised anomaly detection algorithms on 52 real-world multivariate tabular datasets, performing the largest comparison of unsupervised anomaly detection algorithms to date. On this collection of datasets, the $k$-thNN (distance to the $k$-nearest neighbor) algorithm significantly outperforms the most other algorithms. Visualizing and then clustering the relative performance of the considered algorithms on all datasets, we identify two clear clusters: one with ``local'' datasets, and another with ``global'' datasets. ``Local'' anomalies occupy a region with low density when compared to nearby samples, while ``global'' occupy an overall low density region in the feature space. On the local datasets the $k$NN ($k$-nearest neighbor) algorithm comes out on top. On the global datasets, the EIF (extended isolation forest) algorithm performs the best. Also taking into consideration the algorithms' computational complexity, a toolbox with these three unsupervised anomaly detection algorithms suffices for finding anomalies in this representative collection of multivariate datasets. By providing access to code and datasets, our study can be easily reproduced and extended with more algorithms and/or datasets.

연구 동기 및 목표

실세계 다변량 데이터에서 대규모 비감독 이상 탐지 알고리즘의 성능을 평가한다.
데이터셋의 서로 다른 유형(지역 이상치 vs 전역 이상치)이 알고리즘 성능에 영향을 주는지 확인한다.
실세계 설정에서 효과적이고 간결한 이상 탐지 도구상자에 대한 실용적인 지침을 제공한다.
정확도와 효율성의 균형을 맞추기 위한 계산적 고려사항을 평가한다.
재현성을 보장하기 위해 코드와 데이터셋을 공유한다.

제안 방법

주로 PyOD에서 온 52개의 실제 다변수 데이터셋에 대해 32개 이상 탐지 알고리즘을 평가한다.
각 데이터셋마다 각 알고리즘을 합리적 하이퍼파라미터 범위에서 실행하고 ROC-AUC 점수를 평균한다.
이상 탐지 민감도를 줄이기 위해 중복 제거, 중심화, IQR로 스케일링하는 데이터 전처리를 수행한다.
주요 평가 지표로 ROC-AUC를 사용하고 데이터셋별 알고리즘 성능 순위를 계산한다.
전체 차이를 탐지하기 위해 Iman-Davenport 검정을 적용하고, 쌍 간 유의성을 확인하기 위해 Nemenyi 사후 검정을 수행한다.
완전 재현성을 가능하게 하는 코드와 데이터를 포함하는 퍼블릭 GitHub 저장소를 제공한다.

실험 결과

연구 질문

RQ1실세계 다변수 표형 데이터에서 어떤 비감독 이상 탐지 알고리즘이 가장 우수한가?
RQ2데이터셋이 지역 이상치와 전역 이상치를 보일 때 알고리즘의 성능은 달라지는가?
RQ3작고 실용적인 알고리즘 도구상자가 대표 데이터셋 코퍼스에서 이상치를 효과적으로 식별할 수 있는가?
RQ4계산적 고려사항(복잡도)이 알고리즘의 실무 선택에 어떤 영향을 미치는가?
RQ5하이퍼파라미터 최적화 없이 비감독 이상 탐지를 위한 일반화 가능한 가이드라인은 무엇인가?

주요 결과

알고리즘의 상당 부분이 비슷한 성능을 보며, 한 데이터셋에서 최상의 성능의 중앙값은 대략 최상위의 약 90% 수준이다.
kth-NN 및 kNN 변형이 지속적으로 다른 다수의 알고리즘보다 우수하게 작동하며 특히 지역 이상치 데이터셋에서 지배적인 경향이 있다.
Extended Isolation Forest (EIF)은 전역 이상치 데이터셋에서 가장 강력한 성능을 보인다.
CBLOF는 다양한 대안들에 의해 지속적으로 능가되며 전체적으로 가장 약한 성능을 보인다.
신경망 기반 방법들(DeepSVDD, ALAD, SO-GAAL)은 설계 및 하이퍼파라미터 민감성으로 인해 표형 데이터에서 일반적으로 성능이 떨어진다.
두 개의 데이터셋 클러스터가 도출된다: 로컬 이상치 클러스터로 로컬 방법이 뛰어나고 전역 이상치 클러스터로 더 넓은 방법의 앙상블이 최적이다.
kth-NN(또는 kNN 계열), EIF, 그리고 강건한 글로벌 탐지기 세 가지 알고리즘 도구상자만으로도 본 데이터셋에 대해 정확도와 효율성의 균형을 이룬다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.