QUICK REVIEW

[논문 리뷰] Learning Deep Representations of Appearance and Motion for Anomalous Event Detection

Dan Xu, Elisa Ricci|arXiv (Cornell University)|2015. 10. 06.

Anomaly Detection Techniques and Applications참고 문헌 36인용 수 64

한 줄 요약

이 논문은 스택형 노이즈 제거 오토인코더를 통해 복수의 노이즈 제거 오토인코더를 사용하여 외관과 운동 표현을 동시에 학습하고, 초기 융합과 후기 융합을 조합한 이중 융합 전략을 통해 이를 융합하는 새로운 비지도 학습 프레임워크인 외관 및 운동 딥넷(AMDN)을 제안한다. 이 방법은 UCSD 및 Train 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하여, Ped1과 Ped2에서 각각 0.952 및 0.938의 AUC 스코어를 기록하며 프레임 수준 및 픽셀 수준의 이상 탐지에서 이전 방법들을 능가한다.

ABSTRACT

We present a novel unsupervised deep learning framework for anomalous event detection in complex video scenes. While most existing works merely use hand-crafted appearance and motion features, we propose Appearance and Motion DeepNet (AMDN) which utilizes deep neural networks to automatically learn feature representations. To exploit the complementary information of both appearance and motion patterns, we introduce a novel double fusion framework, combining both the benefits of traditional early fusion and late fusion strategies. Specifically, stacked denoising autoencoders are proposed to separately learn both appearance and motion features as well as a joint representation (early fusion). Based on the learned representations, multiple one-class SVM models are used to predict the anomaly scores of each input, which are then integrated with a late fusion strategy for final anomaly detection. We evaluate the proposed method on two publicly available video surveillance datasets, showing competitive performance with respect to state of the art approaches.

연구 동기 및 목표

수동으로 설계된 특징이 사전 가정에 의해 제한되는 복잡하고 혼잡한 비디오 감시 환경에서 이상 사건을 탐지하는 과제를 해결하기 위해.
딥 오토인코더를 사용하여 외관 및 운동 패턴의 풍부하고 구별력 있는 표현을 비지도 방식으로 학습하기 위해.
초기 융합과 후기 융합의 이점을 조합한 새로운 이중 융합 전략을 통해 외관, 운동, 그리고 통합 표현을 융합하여 이상 탐지 성능을 향상시키기 위해.
기존 최신 기술 수준의 방법들과 비교해 이상 탐지 및 국소화 성능을 모두 향상시키기 위해.

제안 방법

프레임워크는 비디오 클립에서 외관 및 운동 특징에 대해 별도의 깊이 표현을 학습하기 위해 스택형 노이즈 제거 오토인코더(SDAE)를 사용한다.
외관 및 운동 특징를 연결하여 제3의 SDAE에 입력함으로써 통합 표현을 학습함으로써, 모odal 특화된 특징의 초기 융합을 가능하게 한다.
일반화된 이상 탐지 스코어를 생성하기 위해, 외관, 운동, 그리고 통합 표현에 대해 각각 독립적으로 일변도 SVM을 훈련시킨다.
후기 융합 전략은 학습된 가중치(αA, αM, αJ)를 사용하여 세 개의 이상 스코어를 융합하여 최종 탐지 출력을 도출한다.
네트워크는 SGD와 모멘텀을 사용하여 사전 훈련되며, 가우시안 노이즈 노이즈 제거(분산 0.0003) 및 고정된 하이퍼파ram터(λ=0.01, λF=0.0001, Nb=256)를 사용한다.
융합 가중치는 교차 검증을 통해 튜닝되며, Ped1에 대해서는 [0.2,0.5,0.3], Ped2에 대해서는 [0.2,0.4,0.4]로 설정된다.

실험 결과

연구 질문

RQ1딥 오토인코더는 영상에서 비지도 이상 탐지에 효과적으로 구별력 있는 외관 및 운동 표현을 학습할 수 있는가?
RQ2초기 융합과 후기 융합을 조합한 하이브리드 융합 전략은 단독으로 사용되는 초기 또는 후기 융합보다 이상 탐지 성능에서 뛰어나게 작용하는가?
RQ3외관-운동 통합 표현은 단독으로 모odal 특화된 특징을 사용하는 것보다 탐지 성능을 향상시킬 수 있는가?
RQ4제안된 AMDN 프레임워크는 어떻게 기존 최신 기술 수준의 방법들과 비교하여 프레임 수준 및 픽셀 수준의 이상 탐지 정확도에서 성능을 냈는가?

주요 결과

UCSD Ped1 데이터셋에서 AMDN은 0.952의 AUC와 0.126의 EER을 기록하여 대부분의 기존 방법들을 능가하는 프레임 수준 평가 성능을 달성했다.
픽셀 수준의 이상 국소화에서 AMDN은 Ped1에서 AUC 0.938과 EER 0.152를 기록하여 모든 경쟁 방법들을 초월했다.
이중 융합 전략은 성능 향상에 크게 기여하였으며, AMDN은 통합 표현만을 사용하는 초기 융합 및 외관과 운동만을 사용하는 후기 융합 기반 모델보다 뛰어난 성능을 보였다.
Train 데이터셋에서 정밀도-재현율 곡선을 통해 AMDN은 주로 행동 학습 및 혼합 가우시안 모델을 포함한 모든 기반 모델을 능가하는 것으로 나타났다.
Ped1과 Ped2에 대한 학습된 융합 가중치는 각각 [0.2,0.5,0.3]과 [0.2,0.4,0.4]이며, 이상 탐지에서 운동 특징에 더 높은 의존도를 보이고 있음을 시사한다.
이 방법은 다양한 데이터셋에 대해 잘 일반화되며, 복잡하고 이질적인 감시 환경에서도 강건성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.