[논문 리뷰] MAD-GAN: Multivariate Anomaly Detection for Time Series Data with Generative Adversarial Networks
MAD-GAN은 LSTM 기반 GAN을 사용하여 다변량 시계열을 모델링하고, 결합된 판별 및 재구성 점수로 이상치를 감지하며, SWaT와 WADI 사이버 공격 데이터셋에서 평가되었습니다.
The prevalence of networked sensors and actuators in many real-world systems such as smart buildings, factories, power plants, and data centers generate substantial amounts of multivariate time series data for these systems. The rich sensor data can be continuously monitored for intrusion events through anomaly detection. However, conventional threshold-based anomaly detection methods are inadequate due to the dynamic complexities of these systems, while supervised machine learning methods are unable to exploit the large amounts of data due to the lack of labeled data. On the other hand, current unsupervised machine learning approaches have not fully exploited the spatial-temporal correlation and other dependencies amongst the multiple variables (sensors/actuators) in the system for detecting anomalies. In this work, we propose an unsupervised multivariate anomaly detection method based on Generative Adversarial Networks (GANs). Instead of treating each data stream independently, our proposed MAD-GAN framework considers the entire variable set concurrently to capture the latent interactions amongst the variables. We also fully exploit both the generator and discriminator produced by the GAN, using a novel anomaly score called DR-score to detect anomalies by discrimination and reconstruction. We have tested our proposed MAD-GAN using two recent datasets collected from real-world CPS: the Secure Water Treatment (SWaT) and the Water Distribution (WADI) datasets. Our experimental results showed that the proposed MAD-GAN is effective in reporting anomalies caused by various cyber-intrusions compared in these complex real-world systems.
연구 동기 및 목표
- 한정된 라벨링 이상치가 있는 다변량 시계열 데이터로 사이버 물리 시스템에서 이상 탐지의 필요성을 제시한다.
- LSTM 기반 GAN을 통해 시간적 의존성과 변수 간 교차 의존성을 포착하기 위해 MAD-GAN을 제안한다.
- 이상 탐지를 위한 판별 손실과 재구성 손실을 결합한 DR-score를 개발한다.
- MAD-GAN을 실제 CPS 데이터셋 SWaT와 WADI에서 평가하여 침입 탐지 성능을 평가한다.
제안 방법
- 일반(multivariate) 다변량 시계열 데이터를 시퀀스로 모델링하기 위해 LSTM-RNN 생성기 및 판별기로 GAN을 구성한다.
- 시계열을 창 슬라이딩 윈도우로 중첩된 부분 시퀀스로 분할하여 시간적 동역학을 포착한다.
- 표준 GAN의 미니맥스 프레임워크에서 G와 D를 학습시켜 정상 데이터의 분포를 학습한다.
- 학습된 생성기를 재구성 기반 이상 점수 산출에 사용하고, 판별기를 판별 기반 점수에 사용한다.
- 재구성 손실과 판별 손실을 DR-Score로 결합하여 부분 시퀀스 및 시간 단계 전반에 걸친 이상치를 탐지하고 이를 원래 시계열로 매핑한다.
- 여러 창 크기에서 이상 탐지에 대해 정밀도, 재현율, F1을 평가하고 MAD-GAN을 PCA, KNN, Feature Bagging, AE, EGAN과 비교한다.
실험 결과
연구 질문
- RQ1MAD-GAN이 CPS 데이터의 비지도 이상 탐지를 위한 다변량 시계열 의존성을 효과적으로 모델링할 수 있는가?
- RQ2DR-Score를 통한 GAN 판별자-생성자 양측 활용이 단일 측면 방법보다 이상 탐지 성능을 향상시키는가?
- RQ3SWaT와 WADI의 실제 CPS 데이터셋에서 사이버 공격 하에 MAD-GAN의 성능은 타 비지도 방법과 비교하여 어떤가?
주요 결과
| 데이터셋 | 방법 | Pre | Rec | F1 |
|---|---|---|---|---|
| SWaT | PCA | 24.92 | 21.63 | 0.23 |
| SWaT | KNN | 7.83 | 7.83 | 0.08 |
| SWaT | FB | 10.17 | 10.17 | 0.10 |
| SWaT | AE | 72.63 | 52.63 | 0.61 |
| SWaT | EGAN | 40.57 | 67.73 | 0.51 |
| SWaT | MAD-GAN* | 99.99 | 54.80 | 0.70 |
| SWaT | MAD-GAN** | 12.20 | 99.98 | 0.22 |
| SWaT | MAD-GAN*** | 98.97 | 63.74 | 0.77 |
| WADI | PCA | 39.53 | 5.63 | 0.10 |
| WADI | KNN | 7.76 | 7.75 | 0.08 |
| WADI | FB | 8.60 | 8.60 | 0.09 |
| WADI | AE | 34.35 | 34.35 | 0.34 |
| WADI | EGAN | 11.33 | 37.84 | 0.17 |
| WADI | MAD-GAN* | 46.98 | 24.58 | 0.32 |
| WADI | MAD-GAN** | 6.46 | 99.99 | 0.12 |
| WADI | MAD-GAN*** | 41.44 | 33.92 | 0.37 |
| KDDCUP99 | PCA | 60.66 | 37.69 | 0.47 |
| KDDCUP99 | KNN | 45.51 | 18.98 | 0.53 |
| KDDCUP99 | FB | 48.98 | 19.36 | 0.28 |
| KDDCUP99 | AE | 80.59 | 42.36 | 0.55 |
| KDDCUP99 | EGAN | 92.00 | 95.82 | 0.94 |
| KDDCUP99 | MAD-GAN* | 94.92 | 19.14 | 0.32 |
| KDDCUP99 | MAD-GAN** | 81.58 | 96.33 | 0.88 |
| KDDCUP99 | MAD-GAN*** | 86.91 | 94.79 | 0.90 |
- MAD-GAN은 SWaT에서 최적의 F1-균형 구성에서 거의 100%에 가까운 정밀도와 높은 재현율을 달성하며 여러 기준선보다 우수하다.
- WADI에서 MAD-GAN은 구성에 따라 재현율이 최대 99.99%에 달하는 높은 재현율을 보이며 오탐이 허용되는 범위에서 효과적인 침입 탐지를 나타낸다.
- 데이터셋 전반에 걸쳐 MAD-GAN은 적어도 하나의 평가 지표에서 PCA, KNN, FB, AE, EGAN보다 일반적으로 우수하며 SWaT의 최적 F1은 0.70, KDDCUP99의 최적 F1은 0.90에 도달한다.
- 다변량 모델링의 이점이 있음을 입증; 다변량 GAN 학습(단변량 대비)으로 더 빠르고 현실적인 샘플 생성(MMD 수렴)이 가능하다.
- DR-Score는 재구성 잔차와 판별 출력의 융합을 효과적으로 수행하여 부분 시퀀스와 시간 단계 전반에서 이상치를 탐지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.