QUICK REVIEW

[論文レビュー] Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision

Peng Wu, Jing Liu|arXiv (Cornell University)|Jul 9, 2020

Human Pose and Action Recognition参考文献 49被引用数 26

ひとこと要約

本稿では、音声・視覚入力を用いて、動画スニペット同士の包括的・局所的・スコアベースの関係を統合的にモデル化するマルチモーダル深層学習フレームワーク、HL-Netを提案する。新しく公開されたXD-Violenceデータセットにおいて最先端の性能（78.64% AP）を達成し、弱教師付き学習下でのマルチモーダル統合と明示的な関係モデリングの有効性を示した。

ABSTRACT

Violence detection has been studied in computer vision for years. However, previous work are either superficial, e.g., classification of short-clips, and the single scenario, or undersupplied, e.g., the single modality, and hand-crafted features based multimodality. To address this problem, in this work we first release a large-scale and multi-scene dataset named XD-Violence with a total duration of 217 hours, containing 4754 untrimmed videos with audio signals and weak labels. Then we propose a neural network containing three parallel branches to capture different relations among video snippets and integrate features, where holistic branch captures long-range dependencies using similarity prior, localized branch captures local positional relation using proximity prior, and score branch dynamically captures the closeness of predicted score. Besides, our method also includes an approximator to meet the needs of online detection. Our method outperforms other state-of-the-art methods on our released dataset and other existing benchmark. Moreover, extensive experimental results also show the positive effect of multimodal (audio-visual) input and modeling relationships. The code and dataset will be released in https://roc-ng.github.io/XD-Violence/.

研究の動機と目的

未編集動画における暴力検出のための、大規模でマルチシーンかつ弱教師付きのデータセットの不足に対処すること。
暴力の局所化を向上させるために、動画スニペット間の複雑な関係を効果的にモデル化する深層学習フレームワークの開発。
視覚的曇りのある状況でも検出のロバスト性を向上させるために、視覚的および音声的モダリティを活用すること。
軽量な近似器モジュールを用いて、実用的なオンライン暴力検出を可能にすること。
今後の弱教師付きマルチモーダル暴力検出分野の研究のためのベンチマークを確立すること。

提案手法

スニペット間の異なる種類の関係をモデル化する3ブランチのニューラルネットワーク、すなわち包括的ブランチ、局所的ブランチ、スコアブランチを有するHL-Netを提案する。
包括的ブランチは、すべてのスニペットにわたる類似性の事前知識を用いて、長距離依存関係を捉える。
局所的ブランチは、スライディングウィンドウ内での近接性の事前知識を用いて、局所的な位置関係をモデル化する。
スコアブランチは、スニペット間の予測された暴力スコアの近接度を、学習可能なアテンションメカニズムを用いて動的に学習する。
完全なオフライン推論プロセスを近似するためのHLC近似器モジュールを導入し、効率的なオンライン推論を可能にする。
弱教師付き暴力検出を、各動画がスニペットのバッグであり、トレーニング時には動画レベルのラベルのみが利用可能であるという複数インスタンス学習（MIL）問題として扱う。

実験結果

リサーチクエスチョン

RQ1音声・視覚のマルチモーダル統合は、単一モーダル手法と比較して、弱教師付き暴力検出の性能を顕著に向上させるか？
RQ2グローバル、ローカル、スコアベースのスニペット間関係という異なる種類の関係は、暴力の局所化にどのように寄与するか？
RQ3動画スニペット間の関係を明示的にモデリングすることは、標準的な特徴集約手法に比べて、暴力検出においてどれほど優れているか？
RQ4軽量な近似器を用いることで、精度を損なわずに効果的なオンライン検出が可能になるか？
RQ5提案手法は、収集済みのデータセットにとどまらず、多様で現実世界のシナリオにも十分に一般化できるか？

主な発見

HL-NetはXD-Violenceデータセットで78.64%の平均適合率（AP）を達成し、C3DおよびI3D特徴を用いたすべての最先端手法を上回った。
アブレーションスタディにより、包括的・局所的・スコアブランチのすべてが不可欠であることが確認され、いずれかのブランチを削除すると性能が最低1.4ポイント以上低下した。
音声＋RGBのマルチモーダル入力は、爆発や突然の衝撃といった視覚的側面が曇りやすい状況において、検出精度を顕著に向上させた。
オフライン検出はオンライン検出よりも5%のAPで優れており、文脈モデリングが正確な局所化に不可欠であることを示唆しているが、HLC近似器により早期推論が強力に実現可能である。
定性的な結果から、マルチモーダル入力により、爆発や叫び声のような音声優位の暴力的イベントにおける誤検出および見逃しを低減していることが示された。
4754本の未編集動画と217時間の音声・視覚コンテンツを有するデータセットXD-Violenceは、弱教師付き暴力検出システムの学習および評価に非常に適していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。