[论文解读] Generative Adversarial Active Learning for Unsupervised Outlier Detection
本文提出 SO-GAAL 和 MO-GAAL,基于 GAN 的框架,用于为无监督异常检测生成信息性潜在异常点,解决高维稀疏性和模态崩溃问题。
Outlier detection is an important topic in machine learning and has been used in a wide range of applications. In this paper, we approach outlier detection as a binary-classification issue by sampling potential outliers from a uniform reference distribution. However, due to the sparsity of data in high-dimensional space, a limited number of potential outliers may fail to provide sufficient information to assist the classifier in describing a boundary that can separate outliers from normal data effectively. To address this, we propose a novel Single-Objective Generative Adversarial Active Learning (SO-GAAL) method for outlier detection, which can directly generate informative potential outliers based on the mini-max game between a generator and a discriminator. Moreover, to prevent the generator from falling into the mode collapsing problem, the stop node of training should be determined when SO-GAAL is able to provide sufficient information. But without any prior information, it is extremely difficult for SO-GAAL. Therefore, we expand the network structure of SO-GAAL from a single generator to multiple generators with different objectives (MO-GAAL), which can generate a reasonable reference distribution for the whole dataset. We empirically compare the proposed approach with several state-of-the-art outlier detection methods on both synthetic and real-world datasets. The results show that MO-GAAL outperforms its competitors in the majority of cases, especially for datasets with various cluster types or high irrelevant variable ratio.
研究动机与目标
- 通过人工生成潜在异常点将异常检测框定为二分类问题。
- 开发 SO-GAAL,通过生成器和判别器之间的极小极大博弈生成信息性异常点。
- 扩展到 MO-GAAL,使用多个生成器以缓解模态崩溃并提供全面的参考分布。
提出的方法
- 使用统一参考分布和一个判别器将异常检测表述为分类任务。
- 引入 SO-GAAL:一个生成器生成信息性异常点,判别器定义决策边界。
- 分析模态崩溃并提出 MO-GAAL:通过多个生成器学习不同的数据子集以创建混合参考分布。
- 定义一个目标,使判别器 S(x) 作为异常分数 OS(x) = 1 - D(x)。
- 提供训练过程和停止条件,通过从单一生成器过渡到多个生成器来防止崩溃。
实验结果
研究问题
- RQ1对抗性主动学习是否能够在无监督设置中生成有信息量的潜在异常点,帮助分类器将异常点与正常数据分离?
- RQ2将生成器从单一扩展到多个生成器(MO-GAAL)是否能够缓解模态崩溃并在不同数据结构上提升鲁棒性?
- RQ3SO-GAAL 和 MO-GAAL 相对于最先进的异常检测方法,在合成与真实世界的高维数据集上表现如何?
主要发现
- 在大多数情况下,MO-GAAL 的表现优于竞争者,特别是对于具多种聚类类型或高比例无关变量的数据集。
- SO-GAAL 在生成信息性异常点时显示出增强的边界学习,但若缺少停止条件可能导致模态崩溃。
- MO-GAAL 使用 k 个子生成器来学习不同的数据子集并创建更全面的参考分布以实现更好的检测。
- 经验评估包括具有不同聚类类型的合成数据集和真实世界数据集,使用 ROC-AUC 作为性能指标。
- 该方法在 Keras 中实现,并与基于密度、基于距离、基于聚类以及单类分类器进行了比较。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。