[논문 리뷰] Time Series Anomaly Detection: Detection of Anomalous Drops with Limited Features and Sparse Examples in Noisy Periodic Data
이 논문은 레이블이 제한된 상태에서 소음이 많고 주기적인 트래픽 시계열 데이터에서 지속적인 비정상적 하락을 탐지하기 위해 하이브리드 기계학습 및 규칙 기반 접근법을 제안한다. Tensorflow를 사용해 DNN, RNN, LSTM을 회귀 모델로 훈련한 후, 실제 값과 예측 값 간의 비교를 통해 이상 탐지 규칙을 적용한다. 두 탐지 방법의 교차 영역이 다양한 모델에서 매우 효과적인 것으로 입증되었지만, 비주기적인 데이터는 예측이 불가능했다.
Google uses continuous streams of data from industry partners in order to deliver accurate results to users. Unexpected drops in traffic can be an indication of an underlying issue and may be an early warning that remedial action may be necessary. Detecting such drops is non-trivial because streams are variable and noisy, with roughly regular spikes (in many different shapes) in traffic data. We investigated the question of whether or not we can predict anomalies in these data streams. Our goal is to utilize Machine Learning and statistical approaches to classify anomalous drops in periodic, but noisy, traffic patterns. Since we do not have a large body of labeled examples to directly apply supervised learning for anomaly classification, we approached the problem in two parts. First we used TensorFlow to train our various models including DNNs, RNNs, and LSTMs to perform regression and predict the expected value in the time series. Secondly we created anomaly detection rules that compared the actual values to predicted values. Since the problem requires finding sustained anomalies, rather than just short delays or momentary inactivity in the data, our two detection methods focused on continuous sections of activity rather than just single points. We tried multiple combinations of our models and rules and found that using the intersection of our two anomaly detection methods proved to be an effective method of detecting anomalies on almost all of our models. In the process we also found that not all data fell within our experimental assumptions, as one data stream had no periodicity, and therefore no time based model could predict it.
연구 동기 및 목표
- 레이블 예제가 극히 적은 소음이 많고 주기적인 트래픽 시계열 스트림에서 지속적인 비정상적 하락을 탐지하는 과제를 해결한다.
- 실제 산업 시계열 데이터에서 이상 데이터의 레이블이 부족한 상황에서 지속적인 학습의 한계를 극복한다.
- 일시적인 피크나 간헐적 정지가 아니라 예측 가능한 패턴에서의 장기적인 이탈을 식별하는 강력한 이상 탐지 시스템을 개발한다.
- 다양한 딥러닝 모델(DNN, RNN, LSTM)이 산업 트래픽 데이터에서 이상 탐지에 사용할 예측된 값 예측 성능을 평가한다.
- 실제 값과 모델 예측 값 간의 비교를 통해 규칙 기반 이상 탐지의 성능을 다양한 데이터 패턴에서 평가한다.
제안 방법
- TensorFlow를 사용해 시계열 회귀를 위해 딥 네ural 네트워크(DNN), 순환 신경망(RNN), 장기 단기 기억 네트워크(LSTM)를 훈련하여 예측된 값 예측한다.
- 실제 관측 값과 모델 예측 값 간의 비교를 통해 이상 탐지 규칙을 적용하는 규칙 기반 이상 탐지 방법을 적용한다.
- 단일 데이터 포인트가 아니라 연속적인 활동 세그먼트에 집중하여 지속적인 이상을 탐지한다.
- 예측 오차 기반과 시간 연속성 기반의 두 이상 탐지 방법을 교차하여 신뢰도를 향상시킨다.
- 다양한 구성과 데이터 스트림에서 모델 성능을 평가하며, 주기성이 없는 데이터 스트림 하나를 포함한다.
- 최종 결정 기준으로 두 탐지 방법의 교차 영역을 사용하여 임의의 경고를 줄이고 신뢰성을 높인다.
실험 결과
연구 질문
- RQ1레이블 예제가 제한된 소음이 많고 주기적인 시계열에서 하이브리드 기계학습 및 규칙 기반 접근법이 지속적인 비정상적 하락을 효과적으로 탐지할 수 있는가?
- RQ2다양한 딥러닝 아키텍처(DNN, RNN, LSTM)는 산업 트래픽 데이터에서 이상 탐지에 사용할 예측된 값 예측에 대해 어떤 성능을 보이는가?
- RQ3여러 이상 탐지 규칙을 조합할 경우 탐지 정확도와 신뢰도가 얼마나 향상되는가?
- RQ4비주기적인 데이터 스트림에 적용했을 때 시간 기반 모델의 한계는 무엇인가?
- RQ5두 탐지 방법의 교차 영역이 진정한 이상을 식별하는 데 개별 방법보다 일관되게 뛰어난 성능을 보일 수 있는가?
주요 결과
- 예측 오차 기반과 시간 연속성 기반의 두 이상 탐지 방법의 교차 영역이 모든 테스트된 모델에서 이상 탐지에 효과적인 전략으로 입증되었다.
- TensorFlow로 훈련된 모델(DNN, RNN, LSTM)은 대부분의 데이터 스트림에서 주기적 패턴을 잘 포착했고, 예측된 값 예측에 있어 정확도를 확보했다.
- 이 방법은 일시적인 하강이나 단기적인 정지로 인한 잘못된 경고를 피하면서도 지속적인 이상을 성공적으로 탐지했다.
- 한 개의 데이터 스트림는 주기성이 없었고, 이로 인해 시간 기반 모델이 예측에 효과를 발휘하지 못했으며, 이는 본 방법의 핵심 한계를 드러냈다.
- 하이브리드 방법은 다양한 데이터 형태와 노이즈 수준에서 강력한 성능을 보이며, 실제 환경에서의 높은 일반화 가능성을 시사했다.
- 실제 값과 예측 값 간의 규칙 기반 비교가 광범위한 레이블 데이터가 필요 없이도 의미 있는 이탈을 신뢰성 있게 식별하는 데 효과적인 메커니즘을 제공했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.