QUICK REVIEW

[논문 리뷰] Are pre-trained CNNs good feature extractors for anomaly detection in surveillance videos?

Tiago S. Nazaré, Rodrigo Fernandes de Mello|arXiv (Cornell University)|2018. 11. 20.

Anomaly Detection Techniques and Applications인용 수 26

한 줄 요약

이 논문은 움직임 모델링 없이 프레임의 외관만을 사용하여 감시 영상에서 이상 탐지에 대해 사전 훈련된 CNN(VGG-16, ResNet-50, Xception, DenseNet-121)을 특징 추출기로 평가한다. 적절한 특징 정규화가 매우 중요하다는 것을 발견했으며, 최적의 정규화를 적용할 경우 Ped2 데이터셋에서 최신 기술 수준의 경쟁력 있는 성능을 달성한다. 이는 상용 CNN 특징이 외관 기반 이상 탐지에 강력한 베이스라인으로 활용될 수 있음을 시사한다.

ABSTRACT

Recently, several techniques have been explored to detect unusual behaviour in surveillance videos. Nevertheless, few studies leverage features from pre-trained CNNs and none of then present a comparison of features generate by different models. Motivated by this gap, we compare features extracted by four state-of-the-art image classification networks as a way of describing patches from security video frames. We carry out experiments on the Ped1 and Ped2 datasets and analyze the usage of different feature normalization techniques. Our results indicate that choosing the appropriate normalization is crucial to improve the anomaly detection performance when working with CNN features. Also, in the Ped2 dataset our approach was able to obtain results comparable to the ones of several state-of-the-art methods. Lastly, as our method only considers the appearance of each frame, we believe that it can be combined with approaches that focus on motion patterns to further improve performance.

연구 동기 및 목표

사전 훈련된 CNN이 감시 영상에서 이상 탐지에 효과적인 특징 추출기로 기능할 수 있는지 조사한다.
최신 이미지 분류 네트워크 네 가지(VGG-16, ResNet-50, Xception, DenseNet-121)의 성능을 영상 이상 탐지에서 비교한다.
다양한 특징 정규화 기법(0-1, z-score, L1, L2)이 탐지 성능에 미치는 영향을 분석한다.
미래의 움직임 기반 접근법과 조합될 수 있는 강력한 외관 중심의 기준 성능을 확립한다.
영상 이상 탐지에서 사전 훈련된 모델과 정규화 전략을 선택하는 데 있어 경험적 지침을 제공한다.

제안 방법

UCSD Ped1 및 Ped2 데이터셋의 감시 영상 각 프레임에서 16픽셀 스타일로 32×32 이미지 패치를 추출한다.
사전 훈련된 ImageNet 모델(VGG-16, ResNet-50, Xception, DenseNet-121)의 합성곱 층을 사용해 각 패치에서 깊은 특징을 추출한다.
추출된 특징에 대해 네 가지 정규화 기법(0-1, z-score, L1, L2)을 적용하여 후속 이상 탐지 성능을 향상시킨다.
정규화된 특징을 기반으로 일종의 분류기(One-Class SVM)를 훈련하여 정상 패tern에서의 이탈을 기반으로 이상을 탐지한다.
프레임 수준의 이상 탐지에서 Equal Error Rate(EER)와 ROC 곡선 아래 면적(AUC)을 사용해 성능을 평가한다.
최고 성능을 보인 모델과 정규화 조합을 선별하여 최신 기술 수준의 방법과 비교한다.

실험 결과

연구 질문

RQ1사전 훈련된 CNN이 태스크 특화 미세조정 없이 감시 영상에서 이상 탐지에 효과적인 특징 추출기로 기능할 수 있는가?
RQ2다양한 사전 훈련된 CNN 아키텍처(VGG-16, ResNet-50, Xception, DenseNet-121)가 외관 기반 이상 탐지에서 성능 면에서 어떻게 비교되는가?
RQ3다양한 특징 정규화 기법(0-1, z-score, L1, L2)이 이상 탐지 성능에 어떤 영향을 미치는가?
RQ4사전 훈련된 네트워크에서 유도된 외관 중심 특징이 최신 기술 수준의 방법과 경쟁 가능한 성능을 달성할 수 있는가?
RQ5시각적 특성이 상이한 데이터셋 간에 성능 격차가 뚜렷한가(예: Ped1의 시점 변화 대비 Ped2의 일관된 시점)?

주요 결과

특징 정규화가 성능에 결정적인 영향을 미치며, ResNet-50와 Xception에서는 z-score 정규화가 가장 우수한 성능을 보였고, DenseNet-121에서는 0-1 정규화가 최적의 성능을 기록했다.
Ped2 데이터셋에서 최고 성능을 보인 구성(DenseNet-121 + 0-1 정규화)은 AUC 88.93%와 EER 19.55%를 달성했으며, 최신 기술 수준의 방법과 유사한 성능을 기록했다.
Ped1 데이터셋에서는 최고 성능로 AUC 64.06%와 EER 40.40%를 기록했으며, 전통적 방법과는 경쟁 가능했지만 최고의 SOTA 성능에는 미치지 못했다. 이는 시점 변화의 영향일 가능성이 높다.
특징 수를 50개에서 100개로 늘일 경우 일반적으로 성능 향상이 있었지만, 추론 시간이 증가하는 비용이 수반되었다.
외관 특징만을 사용함에도 불구하고 뛰어난 성능를 기록했으며, 이는 움직임 기반 방법과 조합될 경우 강력한 기준 성능이 될 수 있음을 시사한다.
결과적으로, 적절히 정규화된 사전 훈련된 CNN 특징은 태스크 특화 미세조정 없이도 감시 영상에서 이상 탐지에 매우 효과적일 수 있음을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.