Skip to main content
QUICK REVIEW

[论文解读] Novelty Detection with GAN

Mark Kliger, Shachar Fleishman|arXiv (Cornell University)|Feb 28, 2018
Anomaly Detection Techniques and Applications参考文献 23被引用 35
一句话总结

本文提出了一种基于 GAN 的新型框架,通过在真实正常数据与生成的新型数据混合数据上训练多类别判别器,实现图像分类与新颖性检测的同步进行。该判别器成为最优的新颖性检测器,在 CIFAR-100 的挑战性新颖类别上显著优于传统方法(如 k-NN 和最大概率阈值法),ND-GAN 在某些类别上的 AUROC 分数最高达到 0.893。

ABSTRACT

The ability of a classifier to recognize unknown inputs is important for many classification-based systems. We discuss the problem of simultaneous classification and novelty detection, i.e. determining whether an input is from the known set of classes and from which specific class, or from an unknown domain and does not belong to any of the known classes. We propose a method based on the Generative Adversarial Networks (GAN) framework. We show that a multi-class discriminator trained with a generator that generates samples from a mixture of nominal and novel data distributions is the optimal novelty detector. We approximate that generator with a mixture generator trained with the Feature Matching loss and empirically show that the proposed method outperforms conventional methods for novelty detection. Our findings demonstrate a simple, yet powerful new application of the GAN framework for the task of novelty detection.

研究动机与目标

  • 解决分类系统在识别未知或新型输入方面面临的关键需求,而传统模型无法识别此类输入。
  • 克服现有新颖性检测方法在高维数据上扩展性差或需要昂贵背景类采样的局限性。
  • 将新颖性检测直接整合到分类流程中,通过共享特征学习降低系统复杂性并提升性能。
  • 通过在 GAN 训练过程中生成新型样本,消除对手动收集背景类数据的依赖。
  • 证明在理论条件下,基于真实正常数据与合成新型数据混合数据训练的 GAN 判别器可成为最优新颖性检测器。

提出的方法

  • 训练一个多类别 GAN,其中判别器将输入分类为 K 个已知类别之一或为 '虚假'(新型),以实现分类与新颖性检测的同步进行。
  • 使用混合生成器,在训练期间从正常数据分布和学习到的新型数据分布中生成样本。
  • 利用特征匹配损失近似理想混合生成器,以促使生成器在数据流形的低密度区域生成样本。
  • 在推理阶段,使用判别器的 K+1 个类别概率进行分类;若最高概率类别为 '虚假'(新型)类别,则将输入标记为新颖。
  • 利用判别器的决策边界作为新颖性检测器,理论上证明其在给定误报率下为最优。
  • 使用标准 GAN 目标端到端训练模型,使生成器学习生成能挑战判别器的真实感新型样本。

实验结果

研究问题

  • RQ1基于 GAN 的框架是否能在无需显式收集背景类数据的情况下有效检测新型输入?
  • RQ2在理论条件下,基于真实正常数据与生成新型数据混合数据训练的多类别判别器是否为最优新颖性检测器?
  • RQ3所提出的 ND-GAN 方法在性能上与传统新颖性检测基线方法(如 k-NN、熵值、最大概率阈值法)相比如何?
  • RQ4生成器在低密度区域生成样本的能力是否能增强判别器的新颖性检测能力?
  • RQ5所提出方法是否在多样且复杂的数据集(如 CIFAR-10 与 CIFAR-100)之间具有泛化能力?

主要发现

  • ND-GAN 方法在 CIFAR-10 与 CIFAR-100 新颖性检测基准上达到最先进性能,'trees' 类别粗分类的 AUROC 分数最高达到 0.893。
  • 在 20 个 CIFAR-100 类别粗分类中的 13 个类别中,ND-GAN 超过所有基线方法,包括 5-NN 和最大概率阈值法。
  • 该方法在所有 20 个 CIFAR-100 类别粗分类上实现了 0.971 的均衡 AUROC,优于 5-NN(0.924)和最大概率法(0.958)。
  • 理论分析证明,基于正常数据与新型数据混合数据训练的多类别判别器是在给定误报率下的最优新颖性检测器。
  • 使用特征匹配损失可有效近似理想混合生成器,生成位于低密度区域的样本,从而提升检测器的泛化能力。
  • 实证结果表明,所提出框架减少了对昂贵背景类采样的依赖,同时保持或提升了检测精度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。