Skip to main content
QUICK REVIEW

[論文レビュー] MAD-GAN: Multivariate Anomaly Detection for Time Series Data with Generative Adversarial Networks

Dan Li, Dacheng Chen|arXiv (Cornell University)|Jan 15, 2019
Anomaly Detection Techniques and Applications参考文献 25被引用数 138
ひとこと要約

MAD-GANはLSTMベースのGANを用いて多変量時系列をモデル化し、判別と再構成のスコアを組み合わせたスコアで異常を検出します。評価はSWaTおよびWADIのサイバー攻撃データセットで行われました。

ABSTRACT

The prevalence of networked sensors and actuators in many real-world systems such as smart buildings, factories, power plants, and data centers generate substantial amounts of multivariate time series data for these systems. The rich sensor data can be continuously monitored for intrusion events through anomaly detection. However, conventional threshold-based anomaly detection methods are inadequate due to the dynamic complexities of these systems, while supervised machine learning methods are unable to exploit the large amounts of data due to the lack of labeled data. On the other hand, current unsupervised machine learning approaches have not fully exploited the spatial-temporal correlation and other dependencies amongst the multiple variables (sensors/actuators) in the system for detecting anomalies. In this work, we propose an unsupervised multivariate anomaly detection method based on Generative Adversarial Networks (GANs). Instead of treating each data stream independently, our proposed MAD-GAN framework considers the entire variable set concurrently to capture the latent interactions amongst the variables. We also fully exploit both the generator and discriminator produced by the GAN, using a novel anomaly score called DR-score to detect anomalies by discrimination and reconstruction. We have tested our proposed MAD-GAN using two recent datasets collected from real-world CPS: the Secure Water Treatment (SWaT) and the Water Distribution (WADI) datasets. Our experimental results showed that the proposed MAD-GAN is effective in reporting anomalies caused by various cyber-intrusions compared in these complex real-world systems.

研究の動機と目的

  • サイバーフィジカルシステムにおける限られたラベル付き異常を持つ多変量時系列データを用いた異常検出の動機づけ。
  • LSTMベースのGANを通じて時間的および変数間の依存関係を捉えるMAD-GANを提案する。
  • 判別損失と再構成損失を組み合わせたDRスコアを異常検出のために開発する。
  • 実世界のCPSデータセットSWaTとWADI上でMAD-GANを評価し侵入検知性能を評価する。

提案手法

  • LSTM-RNNジェネレータとディスクリミネータを用いて正常な多変量時系列をシーケンスとしてモデル化するGANを構築する。
  • 時間的動的特性を捉えるため、スライディングウィンドウで多変量時系列を重複するサブシーケンスに分割する。
  • 正正常データの分布を学習するため、標準的なGANのミニマックスフレームワークでGとDを訓練する。
  • 訓練済みジェネレータを再構成ベースの異常スコアリングに、ディスクリミネータを判別ベースのスコアリングに使用する。
  • 再構成損失と判別損失をDR-Scoreに結合し、サブシーケンス全体および元の時系列へのマッピングで異常を検出する。
  • 複数のウィンドウサイズで異常検知の精度、再現率、F1を用いて評価し、MAD-GANをPCA、KNN、Feature Bagging、AE、EGANと比較する。

実験結果

リサーチクエスチョン

  • RQ1MAD-GANはCPSデータの教師なし異常検出のために多変量時系列の依存関係を効果的にモデル化できるか?
  • RQ2DR-Scoreを介してGANのディスクリミネータとジェネレータの双方を活用することは、単一の側面方法より異常検出を改善するか?
  • RQ3サイバー攻撃下での実世界データSWaTとWADIに対するMAD-GANの性能は、他の教師なし法と比較してどうか?

主な発見

データセット手法精度再現率F1
SWaTPCA24.9221.630.23
SWaTKNN7.837.830.08
SWaTFB10.1710.170.10
SWaTAE72.6352.630.61
SWaTEGAN40.5767.730.51
SWaTMAD-GAN*99.9954.800.70
SWaTMAD-GAN**12.2099.980.22
SWaTMAD-GAN***98.9763.740.77
WADIPCA39.535.630.10
WADIKNN7.767.750.08
WADIFB8.608.600.09
WADIAE34.3534.350.34
WADIEGAN11.3337.840.17
WADIMAD-GAN*46.9824.580.32
WADIMAD-GAN**6.4699.990.12
WADIMAD-GAN***41.4433.920.37
KDDCUP99PCA60.6637.690.47
KDDCUP99KNN45.5118.980.53
KDDCUP99FB48.9819.360.28
KDDCUP99AE80.5942.360.55
KDDCUP99EGAN92.0095.820.94
KDDCUP99MAD-GAN*94.9219.140.32
KDDCUP99MAD-GAN**81.5896.330.88
KDDCUP99MAD-GAN***86.9194.790.90
  • MAD-GANはSWaTにおいて最もF1バランスの取れた構成でほぼ100%の精度と高い再現率を達成し、いくつかのベースラインを上回る。
  • WADIではいくつかの構成で再現率が高く(最大99.99%)、精度は変動するが、誤報を許容しつつ効果的な侵入検知を示す。
  • データセット全体で、MAD-GANは少なくとも1つの評価指標でPCA、KNN、FB、AE、EGANを上回ることが多く、SWaTでの最高F1は0.70、KDDCUP99で0.90に達した。
  • 本研究は多変量モデリングの効果を示し、多変量GAN訓練(単変量と比較して)でサンプル生成がより速く現実的になる(MMD収束)。
  • DR-Scoreは再構成残差と判別出力を効果的に融合し、サブシーケンスおよび時系列全体で異常を検出する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。