QUICK REVIEW

[论文解读] Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision

Peng Wu, Jing Liu|arXiv (Cornell University)|Jul 9, 2020

Human Pose and Action Recognition参考文献 49被引用 26

一句话总结

本文提出HL-Net，一种用于弱监督暴力检测的多模态深度学习框架，通过音频-视觉输入联合建模视频片段之间的整体性、局部性和基于分数的关系。在新发布的XD-Violence数据集上，该方法取得了最先进性能（78.64% AP），证明了在弱监督下多模态融合与显式关系建模的有效性。

ABSTRACT

Violence detection has been studied in computer vision for years. However, previous work are either superficial, e.g., classification of short-clips, and the single scenario, or undersupplied, e.g., the single modality, and hand-crafted features based multimodality. To address this problem, in this work we first release a large-scale and multi-scene dataset named XD-Violence with a total duration of 217 hours, containing 4754 untrimmed videos with audio signals and weak labels. Then we propose a neural network containing three parallel branches to capture different relations among video snippets and integrate features, where holistic branch captures long-range dependencies using similarity prior, localized branch captures local positional relation using proximity prior, and score branch dynamically captures the closeness of predicted score. Besides, our method also includes an approximator to meet the needs of online detection. Our method outperforms other state-of-the-art methods on our released dataset and other existing benchmark. Moreover, extensive experimental results also show the positive effect of multimodal (audio-visual) input and modeling relationships. The code and dataset will be released in https://roc-ng.github.io/XD-Violence/.

研究动机与目标

为未剪辑视频中的暴力检测缺乏大规模、多场景、弱监督数据集的问题提供解决方案。
开发一种深度学习框架，有效建模视频片段之间的复杂关系，以提升暴力定位性能。
利用视觉与音频模态，增强检测鲁棒性，尤其在视觉线索模糊的场景中。
通过轻量级近似器模块实现实用的在线暴力检测。
为未来弱监督、多模态暴力检测研究建立基准。

提出的方法

提出HL-Net，一种三分支神经网络：整体分支、局部分支和分数分支，分别建模不同类型片段间的关系。
整体分支通过跨所有片段的相似性先验捕捉长距离依赖关系。
局部分支通过滑动窗口内的邻近性先验建模局部位置关系。
分数分支利用可学习注意力机制动态学习预测暴力分数在片段间的接近程度。
引入HLC近似器模块，通过近似完整离线推理过程，实现高效在线推理。
将弱监督暴力检测问题视为多实例学习（MIL）问题，其中每个视频被视为片段的“包”，训练时仅使用视频级标签。

实验结果

研究问题

RQ1与单模态方法相比，多模态（音频-视觉）融合是否能显著提升弱监督暴力检测的性能？
RQ2不同类型片段间的关系——全局、局部和基于分数的关系——在提升暴力定位方面分别起到何种作用？
RQ3显式建模片段间关系在暴力检测中是否显著优于标准特征聚合方法？
RQ4轻量级近似器是否能在不牺牲准确率的前提下实现有效的在线暴力检测？
RQ5所提出方法在超越精选数据集的多样化真实场景中是否具有良好的泛化能力？

主要发现

HL-Net在XD-Violence数据集上达到78.64%的平均精度（AP），优于所有最先进方法，包括使用C3D和I3D特征的方法。
消融实验表明，三个分支（整体、局部、分数）均不可或缺，任一分支移除均导致性能下降至少1.4个百分点。
多模态输入（音频+RGB）显著提升检测准确率，尤其在视觉线索模糊的场景中，如爆炸或突然冲击。
离线检测比在线检测高出5% AP，表明上下文建模对精确定位至关重要，尽管HLC近似器实现了强大的早期推理能力。
定性结果表明，多模态输入可减少假阳性和假阴性，尤其在以音频为主导的暴力事件中，如爆炸或尖叫。
XD-Violence数据集包含4754段未剪辑视频和217小时音视频内容，被证明非常适用于弱监督暴力检测系统的训练与评估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。