[论文解读] Deep Semi-Supervised Anomaly Detection
本文提出 Deep SAD,一种端到端的深度半监督异常检测方法,通过利用已标记的正常样本和异常样本,提升检测性能。通过引入基于最小化正常数据潜在熵、最大化异常数据潜在熵的信息论框架,Deep SAD 在 MNIST、Fashion-MNIST、CIFAR-10 和基准数据集上均取得最先进结果,即使在标注数据极少的情况下亦表现优异。
Deep approaches to anomaly detection have recently shown promising results over shallow methods on large and complex datasets. Typically anomaly detection is treated as an unsupervised learning problem. In practice however, one may have---in addition to a large set of unlabeled samples---access to a small pool of labeled samples, e.g. a subset verified by some domain expert as being normal or anomalous. Semi-supervised approaches to anomaly detection aim to utilize such labeled samples, but most proposed methods are limited to merely including labeled normal samples. Only a few methods take advantage of labeled anomalies, with existing deep approaches being domain-specific. In this work we present Deep SAD, an end-to-end deep methodology for general semi-supervised anomaly detection. We further introduce an information-theoretic framework for deep anomaly detection based on the idea that the entropy of the latent distribution for normal data should be lower than the entropy of the anomalous distribution, which can serve as a theoretical interpretation for our method. In extensive experiments on MNIST, Fashion-MNIST, and CIFAR-10, along with other anomaly detection benchmark datasets, we demonstrate that our method is on par or outperforms shallow, hybrid, and deep competitors, yielding appreciable performance improvements even when provided with only little labeled data.
研究动机与目标
- 通过引入已标记的异常样本,解决现有半监督异常检测方法仅利用已标记正常样本所导致的局限性,以提升模型泛化能力。
- 开发一种通用的深度异常检测框架,不局限于特定数据类型或领域。
- 基于 Infomax 原理,提出一种信息论解释,将深度异常检测建模为潜在空间熵最小化过程。
- 证明在复杂、高维数据上,结合正常与异常标签的半监督学习方法,显著优于无监督或一类方法,尤其在复杂高维数据上表现更优。
提出的方法
- 通过联合优化重建损失与分类损失,将无监督的 Deep SVDD 方法扩展至半监督设置,利用未标记和已标记数据进行训练。
- 提出一种新型损失函数,对正常样本最小化潜在表示的熵,对异常样本最大化其熵,从而在正常数据上实现紧凑性,在异常数据上实现稀疏性。
- 使用深度神经网络将输入数据映射到潜在空间,其中正常类别由以原点为中心的超球体表征,且中心通过端到端方式学习。
- 应用基于边距的对比损失,将已标记异常样本与正常超球体分离,提升判别能力,而无需完整分类。
- 通过组合重建损失、中心损失与基于熵的正则化项进行模型优化,超参数经调优以确保鲁棒性。
- 集成表示学习目标,最大化输入与潜在表示之间的互信息,确保在紧凑表征前保留充分信息。
实验结果
研究问题
- RQ1是否一种同时利用已标记正常与异常样本的深度半监督异常检测方法,能够超越现有的无监督与一类方法?
- RQ2在复杂高维数据集(如 CIFAR-10)中,引入已标记异常样本对检测性能有何影响?
- RQ3所提出的基于最小化正常数据熵、最大化异常数据熵的信息论框架,是否可作为深度异常检测的合理且有效的理论解释?
- RQ4该方法对超参数(如熵权重系数 η 与潜在空间维度 d)的选择是否具有鲁棒性?
- RQ5Deep SAD 是否在多种数据类型(包括非图像基准数据集)上具有泛化能力?与低维数据集上的浅层核方法相比表现如何?
主要发现
- Deep SAD 在 MNIST、Fashion-MNIST 和 CIFAR-10 上均达到最先进性能,优于各类浅层与深层基线方法,包括无监督与一类方法。
- 即使仅使用 10 个已标记异常样本,该方法仍实现显著性能提升,表明其在半监督设置下具备极强的数据效率。
- 实验表明,Deep SAD 对超参数 η 具有鲁棒性,在 10⁻² 到 10² 的广泛取值范围内,AUC 性能保持稳定。
- 检测性能随潜在空间维度 d 的增加而提升,并趋于上界,表明足够的表征容量对最优性能至关重要。
- 在经典非图像基准数据集上,尽管浅层核方法具有超参数优势,Deep SAD 仍保持竞争力,表明其在多种数据类型间具备强大泛化能力。
- 基于熵最小化与最大化的信息论框架,为深度异常检测提供了有效且可解释的理论基础,支持模型设计与行为逻辑。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。