Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Structured Energy Based Models for Anomaly Detection

Shuangfei Zhai, Yu Cheng|arXiv (Cornell University)|2016. 05. 25.
Anomaly Detection Techniques and Applications참고 문헌 24인용 수 255
한 줄 요약

본 논문은 데이터 분포를 에너지 기반 네트워크로 모델링하는 딥 구조화 에너지 기반 모델(DSEBMs)을 제시하며, 완전 연결, 순환, 합성곱 아키텍처로 구성된 네트워크를 score matching으로 학습하여 효율적인 이상 탐지를 수행합니다. 정적, 연속, 공간 데이터 전반에서 에너지 기반 및 재구성 오류 결정 기준을 평가하여 베이스라인보다 경쟁력 있거나 우수한 결과를 보입니다.

ABSTRACT

In this paper, we attack the anomaly detection problem by directly modeling the data distribution with deep architectures. We propose deep structured energy based models (DSEBMs), where the energy function is the output of a deterministic deep neural network with structure. We develop novel model architectures to integrate EBMs with different types of data such as static data, sequential data, and spatial data, and apply appropriate model architectures to adapt to the data structure. Our training algorithm is built upon the recent development of score matching \cite{sm}, which connects an EBM with a regularized autoencoder, eliminating the need for complicated sampling method. Statistically sound decision criterion can be derived for anomaly detection purpose from the perspective of the energy landscape of the data distribution. We investigate two decision criteria for performing anomaly detection: the energy score and the reconstruction error. Extensive empirical studies on benchmark tasks demonstrate that our proposed model consistently matches or outperforms all the competing methods.

연구 동기 및 목표

  • 비지도 학습 기반의 딥 에너지 기반 모델로 데이터 분포를 모델링함으로써 이상 탐지를 평가한다.
  • EBM을 정적, 순차적 및 공간 데이터 구조로 확장한다.
  • 복잡한 샘플링을 피하기 위해 score matching을 활용한 학습 절차를 개발한다.
  • 에너지 지형에서의 실용적 이상 탐지 기준인 에너지 점수와 재구성 오차를 도출한다.

제안 방법

  • 에너지를 (완전 연결, 순환, 합성곱 구조를 갖는) 심층 신경망의 출력으로 모델링한다.
  • 에너지 함수를 학습시키기 위해 score matching을 사용하여 MCMC 샘플링 없이 SGD 기반 최적화를 가능하게 한다.
  • 재구성 함수 f(x;θ)=x−∇xE(x;θ) 를 도출하여 EBM과 잡음 제거 자동인코더의 동작을 연결한다.
  • 연속 데이터의 경우 시간에 따라 p(x)를 단계별 에너지로 분해하고 RNN이 에너지 매개변수를 적응하도록 한다.
  • 합성곱 EBMs의 경우 hL을 CNN 출력으로 대체하고 합성곱 층을 통해 그래디언트를 전달한다.
  • 두 가지 이상 탐지 결정 기준을 제공한다: 에너지 임계값(E(x;θ) > Eth)과 재구성-오차 임계값(||∇xE(x;θ)||² > Errorth).

실험 결과

연구 질문

  • RQ1정적, 순차 및 공간 데이터 전반에서 이상 탐지를 위한 복합 데이터 분포를 딥 에너지 기반 모델이 포착할 수 있는가?
  • RQ2샘플링에 의존하지 않고도 효과적으로 학습할 수 있도록 score matching을 EBM 학습에 활용하는 방법은 무엇인가?
  • RQ3에너지 지형과 재구성 오차에서 파생된 효과적인 이상 탐지 기준은 무엇인가?
  • RQ4DSEBMs가 정적, 순차 및 이미지 데이터셋에서 기존 베이스라인보다 우수한가?

주요 결과

MethodKDD99 PrecisionKDD99 RecallKDD99 F1Thyroid PrecisionThyroid RecallThyroid F1Usenet PrecisionUsenet RecallUsenet F1
DSEBM-r0.85210.64720.73280.95270.74790.83860.72050.78370.7314
DSEBM-e0.86190.64460.73990.95580.76420.83750.71290.80810.7475
  • 에너지 기반 스코어링(DSEBM-e) 및 재구성 기반 스코어링(DSEBM-r)을 갖춘 DSEBMs가 정적 데이터셋(KDD99, Thyroid, Usenet)에서 경쟁적이거나 우수한 성능을 보인다.
  • 고차원 정적 데이터에서 DSEBM-e가 종종 최고 F1 점수를 산출한다(예: Usenet, KDD99).
  • 연속 데이터의 경우 CUAVE, NATOPS, FITNESS 데이터에서 DSEBM-e가 일반적으로 평균 정밀도 및 F1에서 가장 높은 성능을 보인다.
  • 공간 데이터(Caltech-101, MNIST, CIFAR-10)에서 DSEBM-e가 재현율 및 F1에서 최상위를 차지하며 MNIST/CIFAR-10에서 유의한 이점을 보인다.
  • 에너지 기반 결정 기준은 대다수 벤치마크에서 재구성 기반 기준보다 우수한 경향을 보이며, 에너지 지형이 강력한 이상 지표임을 시사한다.
  • 재구성 오차 기준은 차원이 높은 경우 이상치가 에너지 극대와 항상 일치하지 않으므로 여전히 합리적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.