[论文解读] Are generative deep models for novelty detection truly better?
本文在多种非图像基准数据集上评估了生成式深度模型与kNN和孤立森林等经典异常检测方法的性能。结果表明,生成式深度模型并未始终优于kNN;其性能高度依赖于超参数调优,而在实际场景中异常标签有限时,这种调优不切实际。
Many deep models have been recently proposed for anomaly detection. This paper presents comparison of selected generative deep models and classical anomaly detection methods on an extensive number of non--image benchmark datasets. We provide statistical comparison of the selected models, in many configurations, architectures and hyperparamaters. We arrive to conclusion that performance of the generative models is determined by the process of selection of their hyperparameters. Specifically, performance of the deep generative models deteriorates with decreasing amount of anomalous samples used in hyperparameter selection. In practical scenarios of anomaly detection, none of the deep generative models systematically outperforms the kNN.
研究动机与目标
- 评估生成式深度模型在真实场景中是否相较于经典异常检测方法具有显著的性能优势。
- 研究超参数选择对生成式深度模型在异常检测中性能的影响。
- 评估当仅能获得少量异常样本用于调优时,深度模型的鲁棒性。
- 确定在实际异常检测场景中,kNN是否即使面对最先进的生成式深度模型,依然能保持强劲基线性能。
- 提供一个标准化、公开可用的框架,以实现异常检测算法之间的公平比较。
提出的方法
- 本研究在广泛范围的非图像基准数据集上评估了多种生成式深度模型——VAE、带归一化流的VAE、GAN、fmGAN以及自编码器。
- 通过AUC分数衡量性能,采用多种超参数选择策略,包括完整测试集、训练集,以及最异常的1%或5%样本。
- 使用Friedman检验和临界差异图评估统计显著性,以比较不同数据集上算法的排名差异。
- 实施了标准化的评估框架,以确保模型在训练、测试和比较过程中的统一性。
- 异常得分来源于重建误差(自编码器)、判别器得分(GAN)或两者的组合。
- 分析还包括平均预测时间与计算成本,以评估在大规模数据集上的实用性。
实验结果
研究问题
- RQ1生成式深度模型是否在非图像基准数据集上系统性地优于kNN和孤立森林等经典异常检测方法?
- RQ2当使用更少的异常样本进行超参数调优时,深度生成模型的性能会如何退化?
- RQ3先前研究中观察到的深度模型优越性能,是由于有利的超参数选择,还是源于模型本身的优越性?
- RQ4即使在先进生成式深度模型存在的情况下,kNN是否仍可被视为一种稳健的基线?
- RQ5当仅有有限的标注异常样本时,哪种超参数选择标准最为有效?
主要发现
- 当使用大量已知异常样本(如完整测试集)进行超参数调优时,VAE和fmGAN等生成式深度模型才可超越kNN。
- 当仅能使用最异常的1%或5%样本进行调优时,生成式模型始终表现逊于kNN,而kNN在所有配置下均保持稳健。
- Friedman检验拒绝了所有模型性能相等的原假设,表明不同方法之间的性能存在统计显著差异。
- 在任何超参数选择标准下(包括最现实的1%和5%异常样本),没有任何生成式模型能超越kNN。
- VAE在所有调优标准下表现最为一致,表明其在生成式深度模型中具有更强的鲁棒性。
- 深度模型在大规模数据集上具有更快的预测时间,因为其推理过程与训练集大小无关;但这一优势被高昂的训练成本所抵消。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。