QUICK REVIEW

[논문 리뷰] Real-Time Anomaly Detection and Localization in Crowded Scenes

Mohammad Sabokrou, Mahmood Fathy|arXiv (Cornell University)|2015. 11. 21.

Anomaly Detection Techniques and Applications참고 문헌 18인용 수 48

한 줄 요약

이 논문은 흐름과 구조적 패턴을 분석할 수 있도록 비중첩 입체 시공간 패치로 비디오를 표현하고, 정상 패치 패턴을 가우시안 분포로 모델링하여 맬라노비스 거리 계산을 통해 실시간 이상 탐지 및 국소화를 수행하는 이중 시각 특징 기반 방법을 제안한다. 흐름과 구조적 패턴을 분리하여 분석함으로써, 정상 패치를 가우시안 분포로 모델링하고 말라노비스 거리를 사용한 이상 탐지 기반으로, 프레임 수준 및 픽셀 수준에서 모두 높은 정확도를 달성한다. 이는 픽셀 수준 성능에서 최신 기술을 능가하며, 25 fps로 실행되며, 약간의 오차를 수용할 경우 최대 200 fps까지 성능을 발휘한다.

ABSTRACT

In this paper, we propose a method for real-time anomaly detection and localization in crowded scenes. Each video is defined as a set of non-overlapping cubic patches, and is described using two local and global descriptors. These descriptors capture the video properties from different aspects. By incorporating simple and cost-effective Gaussian classifiers, we can distinguish normal activities and anomalies in videos. The local and global features are based on structure similarity between adjacent patches and the features learned in an unsupervised way, using a sparse auto- encoder. Experimental results show that our algorithm is comparable to a state-of-the-art procedure on UCSD ped2 and UMN benchmarks, but even more time-efficient. The experiments confirm that our system can reliably detect and localize anomalies as soon as they happen in a video.

연구 동기 및 목표

기존 방법이 높은 계산 비용이나 국소화 성능 부족으로 인해 실패하는 복잡한 장면에서 실시간 이상 탐지 및 국소화 문제를 해결한다.
궤적 기반 및 저수준 특징 방법의 한계를 극복하기 위해 국소 및 전반적인 시공간 패턴을 모두 포괄하는 이중 시각 특징 기반 접근법을 제안한다.
실시간 처리(25 fps)를 가능하게 하면서도 픽셀 수준 국소화에서 높은 정확도를 유지하는 계산 효율적인 프레임워크를 개발한다.
실시간 기능이 없거나 이상 국소화 정확도가 떨어지는 이전 방법들을 향상시키기 위해 전반적 및 국소적 특징 표현을 가우시안 분류와 융합한다.

제안 방법

모든 비디오를 겹치지 않는 입체 시공간 패치로 표현하여 운동 및 구조적 패턴의 국소적 분석을 가능하게 한다.
정상 비디오 패치에 대해 비지도 학습 방식으로 훈련된 희소 autoencoder를 사용해 구분력 있는 전반적 및 국소적 특징을 학습한다.
인접한 패치 간의 구조 유사도 지표를 계산하여 갑작스러운 시공간적 변화를 탐지한다.
모든 정상 패치를 가우시안 분포로 모델링하고 추론 단계에서 말라노비스 거리를 적용하여 이상 탐지 분류를 수행한다.
가중치 기반 결정 전략을 사용해 전반적 및 국소적 시각의 예측을 융합하여 탐지 및 국소화 정확도를 향상시킨다.
정밀한 이상 영역 탐지가 가능한 파rameter β를 사용한 이중 픽셀 수준 평가 지표를 도입한다.

Figure 1: The scheme of our algorithm ( left to right ): Input frames, two views of patches (global and local), modeling the data using Gaussian distributions, and making the final decision

실험 결과

연구 질문

RQ1이중 시각 특징 표현(전반적 및 국소적)이 단일 시각 또는 저수준 특징 방법에 비해 복잡한 장면에서 실시간 이상 탐지 및 국소화 성능을 향상시키는가?
RQ2희소 autoencoder를 통한 특징 학습이 이상 탐지에 있어 정상 패치 모델링의 구분 능력을 얼마나 향상시키는가?
RQ3픽셀 수준 국소화 정확도와 계산 효율성 측면에서 제안된 방법은 최신 기술과 비교해 어떻게 성능을 내는가?
RQ4전반적 및 국소적 서술자 융합이 실시간 영상 스트림에서 낮은 거짓 양성률을 유지하면서 더 신뢰할 수 있는 이상 탐지 성능을 제공하는가?

주요 결과

제안된 방법은 UCSD ped2 데이터셋에서 픽셀 수준 등오차율(EER) 24%를 달성하여 다음으로 우수한 성능을 보인 Li 등(29.9% EER)을 능가한다.
UCSD ped2 데이터셋에서의 프레임 수준 EER는 19%로 Li 등(18.5%)에 이어 두 번째로 높은 성능을 보이며 0.5%의 격차를 확보한다.
표준 하드웨어(3.5 GHz CPU, 8GB RAM)에서 25 fps로 영상 처리가 가능하며, 약간의 오차를 수용할 경우 최대 200 fps까지 성능 향상을 기록하여 경쟁 기법들을 크게 앞서간다.
UMN 데이터셋에서 EER는 2.5%, AUC는 99.6%를 기록하여 이전 최고 성능(2.8% EER)을 초월하며, 프레임 수준 탐지에서 최신 기술 수준의 성능을 입증한다.
이중 픽셀 수준 평가에서 β = 0.05 및 β = 0.10 조건에서도 높은 국소화 정확도를 유지하며, 픽셀 수준 성능이 프레임 수준 결과와 매우 유사하게 유지된다.
전반적 및 국소적 시각의 융합은 탐지 신뢰도를 향상시키며, 개별 분류기 모두 우수한 성능을 보이며, 특히 UMN 데이터셋에서 전반적 모델이 뛰어난 성능을 보인다.

Figure 2: Video representation: Each video is represented through a number of non-overlapping cubic patches, covering the whole space-time in the video.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.