QUICK REVIEW

[论文解读] Are pre-trained CNNs good feature extractors for anomaly detection in surveillance videos?

Tiago S. Nazaré, Rodrigo Fernandes de Mello|arXiv (Cornell University)|Nov 20, 2018

Anomaly Detection Techniques and Applications被引用 26

一句话总结

该论文评估了预训练CNN（VGG-16、ResNet-50、Xception、DenseNet-121）作为仅基于帧外观、不依赖运动建模的监控视频异常检测特征提取器的性能。研究发现，适当的特征归一化至关重要，且在最优归一化条件下，该方法在Ped2数据集上实现了具有竞争力的最先进性能，表明现成的CNN特征可作为基于外观的异常检测的强大基线。

ABSTRACT

Recently, several techniques have been explored to detect unusual behaviour in surveillance videos. Nevertheless, few studies leverage features from pre-trained CNNs and none of then present a comparison of features generate by different models. Motivated by this gap, we compare features extracted by four state-of-the-art image classification networks as a way of describing patches from security video frames. We carry out experiments on the Ped1 and Ped2 datasets and analyze the usage of different feature normalization techniques. Our results indicate that choosing the appropriate normalization is crucial to improve the anomaly detection performance when working with CNN features. Also, in the Ped2 dataset our approach was able to obtain results comparable to the ones of several state-of-the-art methods. Lastly, as our method only considers the appearance of each frame, we believe that it can be combined with approaches that focus on motion patterns to further improve performance.

研究动机与目标

探究预训练CNN是否可作为监控视频异常检测的有效特征提取器。
比较四种最先进的图像分类网络（VGG-16、ResNet-50、Xception、DenseNet-121）在视频异常检测中的性能。
分析不同特征归一化技术（0-1、z-score、L1、L2）对检测性能的影响。
为未来可能结合运动方法的异常检测方法建立一个强大的仅基于外观的基线。
为视频异常检测中选择预训练模型和归一化策略提供实证指导。

提出的方法

从监控视频（UCSD Ped1和Ped2数据集）的每一帧中以16像素步长提取32×32的图像块。
使用预训练ImageNet模型（VGG-16、ResNet-50、Xception、DenseNet-121）的卷积层，从每个图像块中提取深层特征。
对提取的特征应用四种归一化技术（0-1、z-score、L1、L2），以提升下游异常检测性能。
在归一化后的特征上训练一个一类分类器（One-Class SVM），基于与正常模式的偏离程度检测异常。
使用等错误率（EER）和曲线下面积（AUC）评估帧级异常检测性能。
选择表现最佳的模型与归一化组合，用于与最先进方法进行比较。

实验结果

研究问题

RQ1在不进行微调的情况下，预训练CNN能否作为监控视频异常检测的有效特征提取器？
RQ2不同预训练CNN架构（VGG-16、ResNet-50、Xception、DenseNet-121）在基于外观的异常检测中性能如何比较？
RQ3不同特征归一化技术（0-1、z-score、L1、L2）对异常检测性能有何影响？
RQ4仅基于外观的预训练网络特征能否实现与最先进方法相当的性能？
RQ5在视觉特征差异较大的数据集之间（如Ped1存在视角变化 vs. Ped2视角稳定），是否存在显著的性能差距？

主要发现

特征归一化对性能有决定性影响，其中z-score归一化在ResNet-50和Xception上表现最佳，而0-1归一化在DenseNet-121上表现最佳。
在Ped2数据集上，最佳配置（DenseNet-121配合0-1归一化）实现了88.93%的AUC和19.55%的EER，性能与最先进方法相当。
在Ped1数据集上，最佳结果为AUC 64.06%和EER 40.40%，与经典方法相比具有竞争力，但尚未达到最先进水平，可能由于视角变化所致。
将特征数量从50增加到100通常可提升性能，但会增加推理时间。
该方法仅使用外观特征即实现了优异性能，表明其在与基于运动的方法结合时可作为强大基线。
结果表明，经过适当归一化的现成CNN特征，无需任务特定微调，即可在监控视频异常检测中发挥高度有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。