QUICK REVIEW

[論文レビュー] Clustering and Unsupervised Anomaly Detection with L2 Normalized Deep Auto-Encoder Representations

Çağlar Aytekin, Xingyang Ni|arXiv (Cornell University)|Feb 1, 2018

Anomaly Detection Techniques and Applications参考文献 9被引用数 37

ひとこと要約

この論文では、クラスタリングおよび教師なし異常検出の性能を向上させるために、学習中に深層オートエンコーダ表現のl²正規化を提案する。表現を単位球面上に制約することで、ユークリッド空間内でのクラスタがより分離可能かつコンパクトになる。これにより、k-meansクラスタリングおよび異常検出性能が向上し、再構成誤差に基づく手法を上回る。特に、数字「1」のような難しいケースで顕著な向上が得られる。

ABSTRACT

Clustering is essential to many tasks in pattern recognition and computer vision. With the advent of deep learning, there is an increasing interest in learning deep unsupervised representations for clustering analysis. Many works on this domain rely on variants of auto-encoders and use the encoder outputs as representations/features for clustering. In this paper, we show that an l2 normalization constraint on these representations during auto-encoder training, makes the representations more separable and compact in the Euclidean space after training. This greatly improves the clustering accuracy when k-means clustering is employed on the representations. We also propose a clustering based unsupervised anomaly detection method using l2 normalized deep auto-encoder representations. We show the effect of l2 normalization on anomaly detection accuracy. We further show that the proposed anomaly detection method greatly improves accuracy compared to previously proposed deep methods such as reconstruction error based anomaly detection.

研究の動機と目的

深層オートエンコーダ表現を用いて教師なしクラスタリングおよび異常検出を改善すること。
学習中にオートエンコーダ特徴量のl²正規化がクラスタリングおよび異常検出性能を向上させるかどうかを調査すること。
l²正規化により、ユークリッド空間内でのクラスタがより分離可能かつコンパクトになることを示すこと。
再構成誤差に基づくアプローチを上回るクラスタリングに基づく教師なし異常検出手法を提案すること。

提案手法

オートエンコーダの学習中に、エンコーダ出力表現にl²正規化を適用し、それらを単位球面上に制約する。
l²正規化された表現を用いてk-meansクラスタリングを実行し、クラスタリングおよび異常検出に利用する。
正常および異常データを組み合わせてオートエンコーダを学習させ、完全に教師なしの手法とする。
クラスタリングの割り当てを用いて異常スコアを定義する：クラスタの信頼度が低い、またはレアクラスタに属するサンプルは異常とみなす。
再構成誤差に基づく異常検出手法および他の深層オートエンコーダ手法と性能を比較する。
MNISTを用いて評価し、1つの数字クラスの10%を異常として定義し、10回のランダムな分割平均によるAUCを算出する。

実験結果

リサーチクエスチョン

RQ1学習中にオートエンコーダ表現のl²正規化を施すことで、非正規化または他の正規化手法と比較してクラスタリング精度が向上するか？
RQ2l²正規化された表現は、再構成誤差に基づく手法と比較して、より優れた教師なし異常検出を可能にするか？
RQ3なぜ再構成誤差に基づく異常検出は、数字「1」のような特定の数字で失敗するのか？クラスタリングに基づく検出はこの問題を克服できるか？
RQ4l²正規化は、埋め込み空間内での学習済み表現の幾何的構造にどのように影響を与えるか？
RQ5提案されたクラスタリングに基づく異常検出手法は、異なる数字クラスおよび異常定義に一般化可能か？

主な発見

学習中にl²正規化を施すことで、クラスタリング精度が顕著に向上し、追加のクラスタリング損失を用いた手法よりも、正規化済み表現を用いたk-meansが優れている。
提案されたクラスタリングに基づく異常検出手法は、数字「1」で平均AUCが0.9673を達成したのに対し、再構成誤差に基づく検出では0.0782にとどまり、12倍の向上が示された。
10個の数字のうち9つについて、学習中のl²正規化が再構成誤差に基づく手法よりも異常検出AUCを向上させた。特に数字「1」で最大の向上が得られた。
AEおよびVAEベースの再構成誤差手法を上回り、数字全体でAUC 0.9615～0.9790を達成した。一方、ベースラインでは0.135～0.921の範囲であった。
数字「1」で再構成誤差手法が失敗する理由（AUC 0.0782）は、その単純さに起因する。これは、限られたサンプルでもオートエンコーダが良好に再構成できるためである。
クラス不均衡およびトレーニング時の異常データの混在に対しても、本手法は頑健であり、高い性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。