QUICK REVIEW

[논문 리뷰] RLAD: Time Series Anomaly Detection through Reinforcement Learning and Active Learning

Tong Wu, Jorge Ortiz|arXiv (Cornell University)|2021. 03. 31.

Anomaly Detection Techniques and Applications참고 문헌 34인용 수 23

한 줄 요약

RLAD는 최소한의 레이블 데이터로 최신 기술 성능을 달성하기 위해 딥 강화학습(DRL)과 액티브 러닝을 결합한 새로운 준감독(time series) 이상 탐지 프레임워크이다. 비정상적인 데이터에 동적으로 적응하며, 비교된 모든 비지도 및 준지도 방법보다 뛰어나며, 레이블 비율이 0.1%일 때도 기존 비지도 기반 최고 성능 모델 대비 최대 4.4배 높은 F1-스코어를 기록한다.

ABSTRACT

We introduce a new semi-supervised, time series anomaly detection algorithm that uses deep reinforcement learning (DRL) and active learning to efficiently learn and adapt to anomalies in real-world time series data. Our model - called RLAD - makes no assumption about the underlying mechanism that produces the observation sequence and continuously adapts the detection model based on experience with anomalous patterns. In addition, it requires no manual tuning of parameters and outperforms all state-of-art methods we compare with, both unsupervised and semi-supervised, across several figures of merit. More specifically, we outperform the best unsupervised approach by a factor of 1.58 on the F1 score, with only 1% of labels and up to around 4.4x on another real-world dataset with only 0.1% of labels. We compare RLAD with seven deep-learning based algorithms across two common anomaly detection datasets with up to around 3M data points and between 0.28% to 2.65% anomalies.We outperform all of them across several important performance metrics.

연구 동기 및 목표

시간 시리즈 이상 탐지에서 레이블 데이터가 부족한 문제, 특히 비정상적인 실세계 환경에서의 도전에 대응하기 위해.
수동적 하이퍼파라미터 튜닝과 데이터 분포에 대한 강력한 사전 가정에 대한 의존도를 줄이기 위해.
데이터와 선택적 레이블링과의 상호작용을 통해 시간이 지남에 따라 향상되는 동적이고 적응형 모델을 개발하기 위해.
최소한의 레이블링으로도 기존의 비지도 및 준지도 딥 러닝 방법보다 이상 탐지 정확도에서 뛰어난 성능을 내기 위해.

제안 방법

RLAD는 스트리밍 시간 시리즈 환경에서 가장 정보가 많은 샘플을 레이블링하기 위해 딥 Q-네트워크(DQN) 에이전트를 활용한다.
액티브 러닝을 통해 레이블링 노력의 최소화를 위해 가장 불확실하거나 정보가 많은 샘플만을 쿼리한다.
모델은 레이블된 데이터와 레이블되지 않은 데이터를 모두 활용하여 예측을 정교화하기 위해 레이블 전파(label propagation)를 통합한다.
DRL 에이전트가 최적의 레이블링 결정을 내리도록 유도하기 위해 F1-스코어 기반의 보상 함수를 활용한다.
프레임워크는 변동형 오토인코더의 재구성 오차와 표현 학습을 위한 상호정보량 최대화를 조합한 방식으로 엔드 투 엔드로 훈련된다.
에이전트는 환경로부터의 피드백에 기반해 정책을 지속적으로 갱신함으로써 개념 이동(concept drift)에 장기적으로 적응할 수 있다.

실험 결과

연구 질문

RQ1액티브 러닝과 함께 딥 강화학습이 효과적인 시간 시리즈 이상 탐지에 필요한 레이블 수를 크게 줄일 수 있는가?
RQ2낮은 레이블 비율 환경에서 RLAD는 최신 기술의 비지도 및 준지도 이상 탐지 방법과 비교해 어떻게 성능을 내는가?
RQ3재학습 없이 RLAD는 비정상적인 데이터 분포에 얼마나 잘 적응할 수 있는가?
RQ4DRL과 액티브 러닝의 통합이 기존 방법보다 더 빠른 수렴과 더 나은 일반화 성능을 이끌어내는가?

주요 결과

A1Benchmark 데이터셋에서 레이블 데이터가 1%일 경우, RLAD는 최고 성능을 보인 비지도 방법(SPOT)보다 F1-스코어가 59% 높았다.
KPI 데이터셋에서 RLAD는 레이블 샘플이 0.1%에 불과할 때도 F1-스코어 0.778을 기록했으며, Deep-SAD(F1 = 0.128)보다 6배 이상 뛰어났다.
A2Benchmark 데이터셋에서 레이블 비율이 1%일 경우, RLAD는 최고의 비지도 방법보다 F1-스코어 기준 1.58배 높은 성능을 보였다.
KPI 데이터셋에서 RLAD는 최소 300 에피소드 내에 수렴했으며, 훈련에 필요한 레이블 샘플 수는 각각 1500개(0.05%)와 3000개(0.1%)였다.
Yahoo 데이터셋에서 RLAD는 A1Benchmark와 A2Benchmark에서 각각 10% 레이블 비율로 F1-스코어 0.8과 1.0을 기록해 거의 완벽한 성능을 달성했다.
실험 전반에서 RLAD는 레이블 수가 기존 준지도 최신 기술인 Deep-SAD의 일부에 불과할 때도 F1-스코어 기준 최대 10배 높은 성능을 기록했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.