Skip to main content
QUICK REVIEW

[论文解读] Clustering and Unsupervised Anomaly Detection with L2 Normalized Deep Auto-Encoder Representations

Çağlar Aytekin, Xingyang Ni|arXiv (Cornell University)|Feb 1, 2018
Anomaly Detection Techniques and Applications参考文献 9被引用 37
一句话总结

本文在训练过程中对深度自编码器表征进行 l² 归一化,以提升聚类和无监督异常检测性能。通过将表征约束在单位球面上,使欧氏空间中的聚类更加可分且紧凑,从而实现更优的 k-means 聚类和异常检测性能——尤其在数字 '1' 等困难样本上,优于基于重构误差的方法。

ABSTRACT

Clustering is essential to many tasks in pattern recognition and computer vision. With the advent of deep learning, there is an increasing interest in learning deep unsupervised representations for clustering analysis. Many works on this domain rely on variants of auto-encoders and use the encoder outputs as representations/features for clustering. In this paper, we show that an l2 normalization constraint on these representations during auto-encoder training, makes the representations more separable and compact in the Euclidean space after training. This greatly improves the clustering accuracy when k-means clustering is employed on the representations. We also propose a clustering based unsupervised anomaly detection method using l2 normalized deep auto-encoder representations. We show the effect of l2 normalization on anomaly detection accuracy. We further show that the proposed anomaly detection method greatly improves accuracy compared to previously proposed deep methods such as reconstruction error based anomaly detection.

研究动机与目标

  • 通过深度自编码器表征提升无监督聚类与异常检测性能。
  • 探究在训练过程中对自编码器特征进行 l² 归一化是否能增强聚类与异常检测性能。
  • 证明 l² 归一化可使欧氏空间中的聚类更加可分且紧凑。
  • 提出一种基于聚类的无监督异常检测方法,其性能优于基于重构误差的方法。

提出的方法

  • 在自编码器训练过程中,对编码器输出的表征应用 l² 归一化,将其约束在单位球面上。
  • 在 l² 归一化的表征上使用 k-means 聚类进行聚类与异常检测。
  • 在正常与异常数据的组合上训练自编码器,使方法完全无监督。
  • 利用聚类分配定义异常得分:聚类置信度低或属于稀有聚类的样本被标记为异常。
  • 与基于重构误差的异常检测方法及其他深度自编码器方法进行性能对比。
  • 在 MNIST 数据集上评估性能,以 10% 的某一数字类别作为异常样本,对 10 次随机划分取平均。

实验结果

研究问题

  • RQ1与未归一化或其它归一化方法相比,训练过程中对自编码器表征进行 l² 归一化是否能提升聚类准确率?
  • RQ2与基于重构误差的方法相比,l² 归一化的表征是否能实现更优的无监督异常检测性能?
  • RQ3为何基于重构误差的异常检测在某些数字(如 '1')上失效,而基于聚类的检测能否克服此问题?
  • RQ4l² 归一化如何影响嵌入空间中学习到的表征的几何结构?
  • RQ5所提出的基于聚类的异常检测方法是否在不同数字类别及异常定义下具有泛化能力?

主要发现

  • 在训练过程中进行 l² 归一化可显著提升聚类准确率,使用归一化表征的 k-means 聚类性能优于引入额外聚类损失的方法。
  • 所提出的基于聚类的异常检测方法在数字 '1' 上的平均 AUC 达 0.9673,而基于重构误差的检测方法仅为 0.0782,性能提升约 12 倍。
  • 在 10 个数字中的 9 个上,训练过程中的 l² 归一化均提升了异常检测的 AUC,其中数字 '1' 的增益最大。
  • 该方法优于基于 AE 和 VAE 的重构误差方法,在各数字上的 AUC 达 0.9615–0.9790,而基线方法的 AUC 仅为 0.135–0.921。
  • 基于重构误差的方法在数字 '1' 上失效(AUC 为 0.0782)的原因在于其结构简单,即使样本有限,自编码器也能良好重构。
  • 该方法对类别不平衡及训练过程中的异常数据具有鲁棒性,在异常样本混入训练集时仍能保持高性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。