QUICK REVIEW

[논문 리뷰] SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier Detection

Yue Zhao, Xiyang Hu|arXiv (Cornell University)|2020. 03. 11.

Anomaly Detection Techniques and Applications참고 문헌 47인용 수 31

한 줄 요약

SUOD는 데이터 축소, 모델 근사화 및 균형 분산 스케줄링을 결합하여 대규모 이질적 비감독 이상치 탐지를 위한 모듈형 가속 프레임워크를 제안하며, 오픈소스 릴리스가 제공됩니다.

ABSTRACT

Outlier detection (OD) is a key machine learning (ML) task for identifying abnormal objects from general samples with numerous high-stake applications including fraud detection and intrusion detection. Due to the lack of ground truth labels, practitioners often have to build a large number of unsupervised, heterogeneous models (i.e., different algorithms with varying hyperparameters) for further combination and analysis, rather than relying on a single model. How to accelerate the training and scoring on new-coming samples by outlyingness (referred as prediction throughout the paper) with a large number of unsupervised, heterogeneous OD models? In this study, we propose a modular acceleration system, called SUOD, to address it. The proposed system focuses on three complementary acceleration aspects (data reduction for high-dimensional data, approximation for costly models, and taskload imbalance optimization for distributed environment), while maintaining performance accuracy. Extensive experiments on more than 20 benchmark datasets demonstrate SUOD's effectiveness in heterogeneous OD acceleration, along with a real-world deployment case on fraudulent claim analysis at IQVIA, a leading healthcare firm. We open-source SUOD for reproducibility and accessibility.

연구 동기 및 목표

단일 모델 접근보다 강건성을 향상시키기 위해 이질적이고 비감독적인 이상치 탐지기를 활용하도록 동기를 부여합니다.
데이터, 모델 및 실행 병목 현상을 해결하는 엔드투엔드(전체) 가속 프레임워크를 개발합니다.
대규모의 고차원 데이터셋에서 학습 및 예측 시간을 크게 줄이면서 탐지 정확도를 유지합니다.
광범위한 벤치마크와 실제 금융 사기 탐지 배포를 통해 효과를 시연합니다.

제안 방법

Johnson-Lindenstrauss 랜덤 프로젝션을 적용하여 각 기본 모델에 대해 차원 축소된 부분공간을 생성하여 쌍별 거리를 보존하고 다양성을 유도합니다.
비용이 높은 비감독 탐지기를 의사 기본 진실(pseudo ground truth)에서 학습된 빠른 감독 회귀기로 대체하는 의사-감독 근사화를 적용합니다(가상의 ground truth는 학습 데이터에서 탐지기의 출력).
실행 시간을 예측하는 모델 비용 예측기를 사용하고, 워커 간의 균형 잡힌 병렬 스케줄링을 가능하게 하여 작업 부하 불균형을 줄입니다.

실험 결과

연구 질문

RQ1데이터 수준의 임의 투영이 이질적 OD 앙상블에서 차원을 축소하면서 이상치 관련 구조를 보존할 수 있나요?
RQ2의사-감독 근사화가 정확도에 큰 손실 없이 예측 속도를 얼마나 효과적으로 높일 수 있나요?
RQ3예측된 균형 스케줄링이 다양한 m 모델과 t 워커를 대상으로 분산 이질적 OD의 학습/예측 효율성을 향상시키나요?
RQ4데이터 축소, 모델 근사화, 스케줄링을 SUOD에서 결합할 때의 전체 성능 트레이드오프는 무엇인가요?

주요 결과

JL 프로젝션 방법을 이용한 데이터 압축, 특히 circulant 및 toeplitz는 프로젝션 없음 또는 PCA와 비교했을 때 ROC 및 정밀도 지표가 비슷하거나 개선되면서 상당한 시간 절감을 제공합니다.
의사-감독 근사자는 비용이 큰 OD 모델의 예측 속도를 높이고 정확도 손실이 거의 없거나 없으며, 일부 경우 ROC를 개선합니다.
모델 비용 예측기가 안내하는 균형 잡힌 병렬 스케줄링은 실행 시간을 줄이고 워커 간 부하 불균형을 완화합니다.
전체 SUOD 시스템은 이질적 OD 가속에서 누적 이점을 제공하며, 20개가 넘는 벤치마크 데이터세트와 실제 IQVIA 사기 탐지 배포에서 검증되었습니다.
SUOD의 오픈소스 릴리스는 재현성과 PyOD 및 scikit-learn 스타일 API와의 통합을 지원합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.