QUICK REVIEW

[논문 리뷰] RWF-2000: An Open Large Scale Video Database for Violence Detection

Ming Shien Cheng, Kunjing Cai|arXiv (Cornell University)|2019. 11. 14.

Human Pose and Action Recognition참고 문헌 43인용 수 40

한 줄 요약

이 논문은 RWF-2000 대규모 폭력 탐지 데이터셋(실제 세계 감시로부터의 2,000클립)과 RGB와 광류를 자체 학습한 시간 누적 풀링으로 융합하는 Flow Gated Network를 소개하여 RWF-2000에서 테스트 정확도 87.25%를 달성했다.

ABSTRACT

In recent years, surveillance cameras are widely deployed in public places, and the general crime rate has been reduced significantly due to these ubiquitous devices. Usually, these cameras provide cues and evidence after crimes are conducted, while they are rarely used to prevent or stop criminal activities in time. It is both time and labor consuming to manually monitor a large amount of video data from surveillance cameras. Therefore, automatically recognizing violent behaviors from video signals becomes essential. This paper summarizes several existing video datasets for violence detection and proposes the RWF-2000 database with 2,000 videos captured by surveillance cameras in real-world scenes. Also, we present a new method that utilizes both the merits of 3D-CNNs and optical flow, namely Flow Gated Network. The proposed approach obtains an accuracy of 87.25% on the test set of our proposed database. The database and source codes are currently open to access.

연구 동기 및 목표

실제 세계의 감시에서 자동 폭력 탐지를 촉진하여 수동 모니터링 작업을 줄인다.
실제 감시 영상과 균형 잡힌 폭력/비폭력 클립을 포함한 현실적이고 대규모의 데이터셋(RWF-2000)을 제공한다.
자체 학습 풀링을 이용해 RGB(외관)와 모션(광학 흐름)을 모두 활용한 새로운 모델을 제안하여 시간적 특징 집계를 향상시킨다.
제안된 방법을 기존의 폭력 탐지 데이터셋과 베이스라인과 비교하여 실용성과 강인성을 보여준다.

제안 방법

RGB와 광학 흐름의 두 입력 스트림을 공유하는 유사한 3D CNN 백본을 갖춘 Flow Gated Network를 도입한다.
매개변수를 줄이면서 성능을 보존하기 위해 깊이별 분리 3D 컨볼루션을 구현한다.
광류 게이트가 시간 최대 풀링 전에 RGB 특징에 스케일링하는 자체 학습 풀링 메커니즘을 사용한다.
RGB와 광학 흐름 출력을 융합 블록과 최종 완전 연결 분류기로 결합한다.
224x224 해상도에서 64프레임 클립과 5채널 입력(RGB + 두 광류 성분) 및 데이터 보강을 사용하고 SGD 모멘텀(0.9)과 감소하는 학습률로 학습한다.

실험 결과

연구 질문

RQ1대규모의 실제 세계 감시 비디오 데이터셋이 폭력 탐지의 강건성과 일반화에 도움을 줄 수 있는가?
RQ2RGB 외관과 광학 흐름 기반 게이팅의 결합이 전통적인 풀링 방식보다 시간적 특징 풀링을 개선하는가?
RQ3이 작업에서 깊이별 분리 3D 컨볼루션과 표준 3D 컨볼루션 사이의 트레이드오프는 무엇인가?

주요 결과

RWF-2000은 2,000개의 클립으로 구성되며 80%를 훈련, 20%를 테스트로 나누고 폭력 샘플과 비폭력 샘플의 균형 잡힌 혼합을 포함한다.
융합(P3D)을 사용하는 Flow Gated Network는 RWF-2000에서 87.25%의 테스트 정확도 달성으로 여러 베이스라인보다 우수하다.
RGB 전용 및 OPT 전용 변형은 융합 모델보다 성능이 낮아 다중 모달 융합의 이점을 강조한다.
깊이별 분리 3D 컨볼루션은 표준 3D 컨볼루션에 비해 매개변수를 대폭 줄이면서 성능은 거의 같거나 향상된다.
RWF-2000 데이터셋에서 최고 성능 모델(융합 P3D)은 매개변수 272,690개를 사용하고 테스트 정확도 87.25%를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.