[论文解读] Fully Convolutional Neural Network for Fast Anomaly Detection in Crowded Scenes.
本文提出了一种基于全卷积神经网络(FCN)的方法,用于在人群密集的视频场景中实现快速异常检测与定位,通过引入时序建模和级联输出层检测,实现无监督异常识别。该方法在Subway和UCSD基准测试中达到与最先进方法相当的准确率,同时实现370 fps的推理速度。
We present an efficient method for detecting and localizing anomalies in videos showing crowded scenes. Research on {\it fully convolutional neural networks} (FCNs) has shown the potentials of this technology for object detection and localization, especially in images. We investigate how to involve temporal data, and how to transform a supervised FCN into an unsupervised one such that the resulting FCN ensures anomaly detection. Altogether, we propose an FCN-based architecture for anomaly detection and localization in crowded scenes videos. For reducing computations and, consequently, improving performance both with respect to speed and accuracy, we investigate the use of cascaded out-layer detection. Our architecture includes two main components, one for feature representation, and one for cascaded out-layer detection. Experimental results on Subway and UCSD benchmarks confirm that the detection and localization accuracy of our method is comparable to state-of-the-art methods, but at a significantly increased speed of 370 fps.
研究动机与目标
- 开发一种高效、实时的异常检测系统,用于人群密集的视频场景。
- 通过整合时序视频数据,将有监督的FCN适应于无监督异常检测。
- 降低计算成本并提高推理速度,同时不牺牲检测准确率。
- 实现在复杂、人群密集环境中对异常的精确定位。
提出的方法
- 该方法采用两组件FCN架构:一个用于时空特征表示,另一个用于级联输出层检测。
- 将时序建模集成到FCN中,以捕捉视频帧之间的运动模式。
- 通过从视频片段中学习正常场景模式,以无监督方式训练网络。
- 采用级联输出层检测,通过聚焦于高激活异常区域来降低计算负载。
- 通过识别输出层组件中与预期特征图的偏差,实现异常定位。
- 通过最小化全连接层并最大化空间卷积,对网络架构进行速度优化。
实验结果
研究问题
- RQ1FCN能否在人群密集的视频场景中有效适应无监督异常检测?
- RQ2如何高效地将时序信息整合到全卷积框架中以实现异常检测?
- RQ3级联输出层检测能否显著降低推理时间,同时保持检测准确率?
- RQ4在人群密集场景的实时异常检测中,速度与准确率之间的权衡如何?
主要发现
- 所提方法实现了370 fps的实时推理速度,显著优于先前方法的推理速度。
- 在Subway和UCSD基准测试中,检测与定位准确率与最先进方法相当。
- 采用级联输出层检测有效降低了计算复杂度,且未降低性能。
- 无监督训练策略成功学习了正常场景模式,从而实现了有效的异常检测。
- FCN中的时序建模提升了网络检测人群密集场景中异常运动模式的能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。