QUICK REVIEW
[论文解读] Efficient GAN-Based Anomaly Detection
Houssam Zenati, Chuan-Sheng Foo|arXiv (Cornell University)|Feb 17, 2018
Anomaly Detection Techniques and Applications参考文献 16被引用 483
一句话总结
本文采用类似 BiGAN 的框架并配备编码器,以实现高效的异常检测,在 MNIST 和 KDD99 上达到最新技术水平,并且测试时推断速度比先前的基于 GAN 的方法快得多。
ABSTRACT
Generative adversarial networks (GANs) are able to model the complex highdimensional distributions of real-world data, which suggests they could be effective for anomaly detection. However, few works have explored the use of GANs for the anomaly detection task. We leverage recently developed GAN models for anomaly detection, and achieve state-of-the-art performance on image and network intrusion datasets, while being several hundred-fold faster at test time than the only published GAN-based method.
研究动机与目标
- 利用同时学习编码器和生成器的 GAN 来建模正常数据分布。
- 通过在训练中整合编码来避免测试时成本高昂的潜在嵌入恢复。
- 定义一个将重构损失与判别器基础损失结合的异常分数。
- 在图像(MNIST)和网络入侵(KDD99)数据集上展示最先进的性能。
提出的方法
- 采用 BiGAN 风格的训练,同时学习 G、E、D 以对正常数据进行建模。
- 优化 V(D,E,G) 的 min_G,E max_D,使 x 与 z 通过编码器和生成器对齐。
- 定义异常分数 A(x) = α L_G(x) + (1−α) L_D(x),其中 L_G(x) = ||x − G(E(x))||_1。
- 对 L_D 评估两种变体:交叉熵 σ(D(x,E(x)),1) 和特征匹配 ||f_D(x,E(x)) − f_D(G(E(x)),E(x))||_1。
- 证明特征匹配的 L_D(FM)在异常评分方面优于交叉熵 σ 的表现。
- 与 AnoGAN 和 VAE 进行比较,报告 MNIST 和 KDD99 的结果以及推断时间的加速。
实验结果
研究问题
- RQ1在训练时将编码器与生成器联同训练的 GAN 能否在不进行测试时潜在嵌入恢复的情况下实现高效的异常检测?
- RQ2将编码器纳入 GAN 训练是否能提升对高维数据(如图像和网络流量)的异常检测?
- RQ3在准确性和速度方面,基于 BiGAN 的异常检测器与现有的 GAN 基方法和非 GAN 方法在 MNIST 与 KDD99 上有何比较?
- RQ4在异常评分中使用特征匹配判别器损失与使用交叉熵判别器损失有何影响?
主要发现
| 模型 | 精确度 | 召回率 | F1 |
|---|---|---|---|
| OC-SVM | 0.7457 | 0.8523 | 0.7954 |
| DSEBM-r | 0.8521 | 0.6472 | 0.7328 |
| DSEBM-e | 0.8619 | 0.6446 | 0.7399 |
| DAGMM-NVI | 0.9290 | 0.9447 | 0.9368 |
| DAGMM | 0.9297 | 0.9442 | 0.9369 |
| AnoGAN FM | 0.8698 | 0.9523 | 0.9058 |
| AnoGAN σ | 0.7790 | 0.7914 | 0.7852 |
| Our Model FM | 0.8698 | 0.9523 | 0.9058 |
| Our Model σ | 0.9200 | 0.9582 | 0.9372 |
- 在 MNIST 上,BiGAN 基方法在 10 个基于 MNIST 的异常任务中在 AUPRC 指标上优于 AnoGAN 和 VAE。
- L_D 的 FM 变体给出的异常分数优于 σ 变体,与判别器特征对检测有信息量一致。
- 推断时的速度远快于 AnoGAN(在 MNIST 上约快 800 倍)。
- 在 KDD99 上,该方法仍与最先进结果竞争并达到更高的召回,同时带来显著的加速提升(700x 到 900x 更快)。
- AnoGAN-FM 与基于 BiGAN 的方法在高维数据上展现出较强的跨数据集泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。