QUICK REVIEW

[論文レビュー] Classification-Based Anomaly Detection for General Data

Liron Bergman, Yedid Hoshen|arXiv (Cornell University)|May 5, 2020

Anomaly Detection Techniques and Applications参考文献 22被引用数 99

ひとこと要約

GOADは、一般データ（表形式を含む）に対する異常検知のためのオープンセットと変換ベースの分類を統合し、学習済み特徴空間での距離ベーススコアリングとアフィン変換を用いる。

ABSTRACT

Anomaly detection, finding patterns that substantially deviate from those seen previously, is one of the fundamental problems of artificial intelligence. Recently, classification-based methods were shown to achieve superior results on this task. In this work, we present a unifying view and propose an open-set method, GOAD, to relax current generalization assumptions. Furthermore, we extend the applicability of transformation-based methods to non-image data using random affine transformations. Our method is shown to obtain state-of-the-art accuracy and is applicable to broad data types. The strong performance of our method is extensively validated on multiple datasets from different domains.

研究の動機と目的

正常な訓練データのみを必要とする半教師あり・分類ベースの異常検知を改善する動機付け。
変換ベースの手法を一般データへ拡張する統一的フレームワーク（GOAD）を提案し、アフィン変換を介して適用可能性を広げる。
変換後サブスペースが互いに十分に分離され、異常がサブスペース中心からの距離でスコアリングされる識別的特徴空間を学習する。
画像以外のデータにも対応できるよう、アフィン変換を含む変換セットを拡張し、表形式データを含む広い適用性を確保する。
学習データが正常データのみという半教師あり設定で、外乱攻撃に対する頑健性を示し、複数の領域（画像および表形式）で検証する。

提案手法

データを学習済みのアフィン変換T(x,m)=Wm x + bmを用いてM個のサブスペースX1,...,XMへ変換する。
各サブスペースを特徴空間で中心cmとしてモデル化する。クラスター内の凝集性を高め、クラスター間の分離を促進するため、Eq. 3に従うトリプレット中心損失で距離を測る。
変換の尤度を中心への距離の負の値に対するソフトマックスとして計算し（Eq. 2）、不確かな領域を正則化するため小さなepsilonを適用する（Eq. 4）。
transformedサンプルの尤度を集約して正規性スコア Score(x) = - sum_m log P̃(T(x,m) ∈ Xm)（Eq. 5）を得る。
非画像データにも対処できるよう、アフィンマップへの変換を拡張し、対外的な攻撃例へのロバスト性を向上させる。
オープンセットベースのGOADをソフトマックス風の手法と比較し、画像（CIFAR-10、Fashion-MNIST）および表形式データセット（医療・サイバーセキュリティ）で評価する。

実験結果

リサーチクエスチョン

RQ1一般データタイプ（表形式を含む）を含む異常検知で、統一的でオープンセット駆動の変換ベースアプローチは性能を改善できるか？
RQ2変換をアフィン写像に拡張することで、画像専用の幾何変換より一般化と頑健性は向上するか？
RQ3GOADは多様な領域で、最先端の分類ベースおよび再構成ベースの異常検知器と比較してどうか？
RQ4正常データのみで学習された半教師あり設定において、中心ベースクラスタリングの学習特徴空間は異常検知に有効か？
RQ5変換をランダム化することは、敵対的操作への頑健性にどのような影響を与えるか？

主な発見

データセット	手法	ROC-AUC（％）
CIFAR-10	Deep-SVDD	64.8
CIFAR-10	GEOM (no Dirichlet)	81.6
CIFAR-10	GEOM (w. Dirichlet)	86.0
CIFAR-10	GOAD (Ours)	88.2
Fashion-MNIST	Deep-SVDD	92.8
Fashion-MNIST	GEOM (no Dirichlet)	79.8
Fashion-MNIST	GEOM (w. Dirichlet)	93.5
Fashion-MNIST	GOAD (Ours)	94.1

GOADは CIFAR-10 および Fashion-MNIST の異常検知ベンチマークで最先端または競争力のある精度を達成している。
CIFAR-10 では GOAD の平均 ROC-AUC は 88.2%、Deep-SVDD は 64.8%、GEOM（Dirichletなし）は 81.6%、GEOM（Dirichletあり）は 86.0%。
Fashion-MNIST では GOAD の平均 ROC-AUC は 94.1%、Deep-SVDD は 92.8%、GEOM（Dirichletなし）は 79.8%、GEOM（Dirichletあり）は 93.5%。
GOAD はランダムなアフィン変換を用いることで敵対的攻撃に対する頑健性を示し、CIFAR-10 全体で攻撃者による悪用を抑制した。
GOAD は tabular データセット（Arrhythmia、Thyroid、KDD、KDDRev）へ拡張され、多くのベースライン（OC-SVM、E2E-AE、LOF、DAGMM、FB-AE）を上回る指標を示し、特に KDD/KDDRev で優位；ランダム変換は頑健性を高める。
変換数を増やすと一般にスコアの分散が小さくなり、より大規模データセットで性能が向上する傾向がある；安定した結果には約16タスク以上が推奨される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。