Skip to main content
QUICK REVIEW

[論文レビュー] Novelty Detection with GAN

Mark Kliger, Shachar Fleishman|arXiv (Cornell University)|Feb 28, 2018
Anomaly Detection Techniques and Applications参考文献 23被引用数 35
ひとこと要約

本稿では、実際の正規データと生成された新奇データの混合分布上で訓練された多クラス識別器を用いる、同時画像分類および新奇度検出のための新規GANフレームワークを提案する。識別器は、従来の方法(k-NN や最大確率閾値法)を上回る性能を示し、特に挑戦的な CIFAR-100 の新奇カテゴリにおいて顕著な効果を示す。ND-GAN は特定のクラスで最大 0.893 の AUROC スコアを達成する。

ABSTRACT

The ability of a classifier to recognize unknown inputs is important for many classification-based systems. We discuss the problem of simultaneous classification and novelty detection, i.e. determining whether an input is from the known set of classes and from which specific class, or from an unknown domain and does not belong to any of the known classes. We propose a method based on the Generative Adversarial Networks (GAN) framework. We show that a multi-class discriminator trained with a generator that generates samples from a mixture of nominal and novel data distributions is the optimal novelty detector. We approximate that generator with a mixture generator trained with the Feature Matching loss and empirically show that the proposed method outperforms conventional methods for novelty detection. Our findings demonstrate a simple, yet powerful new application of the GAN framework for the task of novelty detection.

研究の動機と目的

  • 従来のモデルが認識できない未知または新奇の入力を検出できる分類システムの重要なニーズに対応する。
  • 高次元データにおいてスケーリングが悪く、バックグラウンドクラスのサンプリングにコストがかかる既存の新奇度検出手法の限界を克服する。
  • 特徴量学習の共有によりシステムの複雑性を低減し、性能を向上させるために、新奇度検出を分類パイプラインに直接統合する。
  • 手動で収集されたバックグラウンドクラスデータの必要性を排除し、GAN 訓練中に新奇例を生成する。
  • 理論的条件下で、正規データと合成された新奇データの混合分布上で訓練されたGAN識別器が、最適な新奇度検出器となることを示す。

提案手法

  • 識別器がK個の既知のクラスまたは「偽物」(新奇)として入力を分類できる多クラスGANを訓練し、同時に分類と新奇度検出を実現する。
  • 訓練中に、正規データ分布および学習された新奇データ分布からの両方のサンプルを生成する混合生成器を用いる。
  • 特徴マッチング損失を用いて理想の混合生成器を近似し、データ多様体の低密度領域にサンプルを生成するよう生成器を促進する。
  • 推論時、識別器のK+1クラス確率に基づいて入力を分類する。トップクラスが「偽物」(新奇)クラスの場合、入力は新奇とマークされる。
  • 識別器の意思決定境界を新奇度検出器として活用し、所定の偽陽性率に対して理論的に最適であることが証明されている。
  • 標準的なGAN目的関数を用いて、生成器が識別器を挑戦する現実的な新奇に似たサンプルを学習するように、モデルをエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

  • RQ1明示的なバックグラウンドクラスデータ収集を要せず、GANベースのフレームワークが新奇入力を効果的に検出可能か?
  • RQ2実際の正規データと生成された新奇データの混合分布上で訓練された多クラス識別器が、理論的条件下で最適な新奇度検出器となるか?
  • RQ3提案手法ND-GANの性能は、k-NN、エントロピー、最大確率閾値法といった従来の新奇度検出ベースラインと比べてどうか?
  • RQ4生成器が低密度領域でサンプルを生成できる能力が、識別器の新奇度検出能力を向上させるか?
  • RQ5提案手法は、CIFAR-10 と CIFAR-100 のような多様で複雑なデータセットに一般化可能か?

主な発見

  • ND-GAN手法は、CIFAR-10 対 CIFAR-100 の新奇度検出ベンチマークで最先端の性能を達成し、『木』という粗分類クラスで最大 0.893 の AUROC スコアを記録した。
  • CIFAR-100 の20の粗分類クラスのうち13クラスで、5-NN や最大確率閾値法を含むすべてのベースライン手法を上回った。
  • CIFAR-100 の全20の粗分類クラスにおいて、バランス取れたAUROCが 0.971 を達成し、5-NN(0.924)や最大確率(0.958)を上回った。
  • 理論的分析により、正規データと新奇データの混合分布上で訓練された多クラス識別器が、所定の偽陽性率に対して最適な新奇度検出器であることが証明された。
  • 特徴マッチング損失の使用により、理想の混合生成器の効果的な近似が可能となり、低密度領域にサンプルを生成することで検出器の一般化性能が向上した。
  • 実験的結果から、高価なバックグラウンドクラスサンプリングに依存する必要が軽減されつつ、検出精度は維持または向上したことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。