QUICK REVIEW

[논문 리뷰] Anomaly Locality in Video Surveillance

Federico Landi, Cees G. M. Snoek|arXiv (Cornell University)|2019. 01. 29.

Anomaly Detection Techniques and Applications참고 문헌 16인용 수 36

한 줄 요약

이 논문은 전체 프레임 비디오 대신 시공간 액션 튜브를 사용하여 이상 탐지의 로컬성(locality)을 연구하고, 경계 상자 주석이 있는 UCFCrime2Local를 도입하며, 로컬성이 탐지 성능을 향상시키고 약지도 감독된 제안의 가능성을 보여준다.

ABSTRACT

This paper strives for the detection of real-world anomalies such as burglaries and assaults in surveillance videos. Although anomalies are generally local, as they happen in a limited portion of the frame, none of the previous works on the subject has ever studied the contribution of locality. In this work, we explore the impact of considering spatiotemporal tubes instead of whole-frame video segments. For this purpose, we enrich existing surveillance videos with spatial and temporal annotations: it is the first dataset for anomaly detection with bounding box supervision in both its train and test set. Our experiments show that a network trained with spatiotemporal tubes performs better than its analogous model trained with whole-frame videos. In addition, we discover that the locality is robust to different kinds of errors in the tube extraction phase at test time. Finally, we demonstrate that our network can provide spatiotemporal proposals for unseen surveillance videos leveraging only video-level labels. By doing, we enlarge our spatiotemporal anomaly dataset without the need for further human labeling.

연구 동기 및 목표

감시 비디오에서 이상 현상을 로컬리티를 활용하기 위해 시공간 튜브의 사용을 동기화한다.
튜브 추출 모듈, 3D CNN 비디오 인코더, 이상 점수 회귀 헤드로 구성된 학습 가능한 모델을 제안한다.
UCFCrime2Local을 만들고 게시하여 학습 및 테스트용 경계 상자 주석 이상 데이터셋을 제공한다.
localization 오차에 대한 강건성을 입증하고 시공간 제안에 대한 약지도 학습의 가능성을 보인다.

제안 방법

Tube extraction module 은 프레임을 자르고 리사이즈하여 시공간 튜브를 형성한다.
I3D (inflated 3D convnet) 를 두 흐름(RGB 및 광류) 특징과 함께 인코딩에 사용한다.
특징을 1x1 합성곱으로 축소한 뒤, 활성화 함수 ReLU 와 50% 드롭아웃이 적용된 완전 연결층(1024, 256, 64, 1)으로 0에서 1 사이의 이상 점수 A(X)를 회귀한다.
16-프레임 세그먼트에서 SGD(lr=0.001, Nesterov 모멘텀 0.9)으로 평균제곱오차(MSE)로 10에폭, 미니배치당 5개 세그먼트를 사용해 학습한다.
UCFCrime를 주석화하여 UCFCrime2Local을 만들고, 학습/테스트에서 바운딩 박스를 사용해 튜브 기반 평가를 수행하고 전체 프레임 기준선과 비교한다.
실험적으로 localization 오차에 대한 강건성을 평가하고 보지 못한 비디오에 대한 약지도 시튜어 제안의 가능성을 테스트한다.

실험 결과

연구 질문

RQ1시공간 튜브에 초점을 두는 것이 전체 프레임 비디오 세그먼트에 비해 이상 탐지 성능을 향상시키는가?
RQ2튜브 추출에서의 localization 오차에 대해 튜브 기반 이상 탐지가 얼마나 강건한가?
RQ3보지 못한 비디오에 대해 튜브 기반 제안들이 약지도 학습을 가능하게 하는가?
RQ4현실 세계의 감시 데이터에서 이상 탐지 성능에 대한 locality의 효과는 무엇인가?

주요 결과

설정	AUC (%)
Video Segment	56.12
Oracle Tube	74.73

튜브 기반(oracle 튜브) 이상 탐지는 전체 프레임 비디오 세그먼트 기준으로 상당한 마진으로 성능을 상회하며(해당 구성에서 AUC가 18.61 포인트 상승).
로컬라이제이션 오차에 대해서도 성능이 안정적이며, 실제 정답 상자 대비 대략 75%에서 400% 범위의 상자 크기에서 강건한 성능을 보인다.
다수의 튜브를 사용하고 그 점수를 집계하면 강력한 약지도 성능을 얻을 수 있으며, 때로는 봄에 보지 못한 데이터에서의 제안을 활용할 때 엄격하게 감독된 접근을 능가하기도 한다.
UCFCrime2Local 데이터셋은 학습 및 테스트에서 경계 상자 감독을 제공하여 시공간 이상 분석 및 확장된 약지도 기회를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.