QUICK REVIEW

[論文レビュー] RWF-2000: An Open Large Scale Video Database for Violence Detection

Ming Shien Cheng, Kunjing Cai|arXiv (Cornell University)|Nov 14, 2019

Human Pose and Action Recognition参考文献 43被引用数 40

ひとこと要約

この論文は RWF-2000 大規模暴力検出データセット（実世界の監視映像からの 2,000 クリップ）と、RGB と光フローを自己学習型時系列プーリングで統合する Flow Gated Network を紹介し、RWF-2000 でのテスト正解率を 87.25% に達成。

ABSTRACT

In recent years, surveillance cameras are widely deployed in public places, and the general crime rate has been reduced significantly due to these ubiquitous devices. Usually, these cameras provide cues and evidence after crimes are conducted, while they are rarely used to prevent or stop criminal activities in time. It is both time and labor consuming to manually monitor a large amount of video data from surveillance cameras. Therefore, automatically recognizing violent behaviors from video signals becomes essential. This paper summarizes several existing video datasets for violence detection and proposes the RWF-2000 database with 2,000 videos captured by surveillance cameras in real-world scenes. Also, we present a new method that utilizes both the merits of 3D-CNNs and optical flow, namely Flow Gated Network. The proposed approach obtains an accuracy of 87.25% on the test set of our proposed database. The database and source codes are currently open to access.

研究の動機と目的

現実世界の監視で自動暴力検出を促進し、手動監視労力を削減します。
現実の監視映像を含むバランスの取れた暴力/非暴力クリップを含む実用的で大規模なデータセット（RWF-2000）を提供します。
Appearance (RGB) と Motion (光流) の両方を活用し、自己学習型プーリングで時間的特徴量の集約を改善する新規モデルを提案します。
提案手法を既存の暴力検出データセットとベースラインと比較評価し、実用性と堅牢性を示します。

提案手法

RGB と光流の2つの入力ストリームを共有する似た3D CNN バックボーンを備えた Flow Gated Network を導入します。
パラメータを削減しつつ性能を維持するため、Depth-wise separable 3D 畳み込みを実装します。
自己学習型プーリング機構を用い、光流ゲートがRGB特徴を時系列の最大プーリング前にスケーリングします。
RGBと光流出力をマージブロックと最終全結合分類器で結合します。
224x224 解像度の64フレームクリップと5チャンネル入力（RGB + 2つの光流成分）およびデータ拡張を使用し、学習は SGD モーメント0.9 と減衰学習率で行います。

実験結果

リサーチクエスチョン

RQ1大規模な現実世界の監視ビデオデータセットは暴力検出の頑健性と一般化能力を高められるのか？
RQ2RGB の外観と光流駆動ゲーティングを統合することで、従来のプーリング方式より時間的特徴量の集約が改善されるのか？
RQ3このタスクにおける Depth-wise separable 3D 畳み込みと標準の 3D 畳み込みのトレードオフは何か？

主な発見

RWF-2000 は 2,000 クリップからなり、80% がトレーニング、20% がテストで、暴力と非暴力のサンプルがバランス良く混在します。
Flow Gated Network with fusion (P3D) は RWF-2000 で 87.25% のテスト正解率を達成し、いくつかのベースラインを上回ります。
RGBのみおよび OPT のみのバリアントは融合モデルより性能が劣り、多モーダル融合の利点を示します。
Depth-wise separable 3D 畳み込みはパラメータを大幅に削減し、標準の 3D 畳み込みと比較して微小または改善された性能を示します。
RWF-2000 データセットでは、最も良く機能したモデル（fusion P3D）は 272,690 パラメータで、テスト正解率は 87.25% です。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。