[论文解读] Object-centric Auto-encoders and Dummy Anomalies for Abnormal Event Detection in Video
该论文提出了一种基于对象中心自编码器框架并结合一对多多分类方法的异常事件检测方法,用于视频中的异常事件检测。通过使用无监督自编码器从检测到的对象中学习运动和外观特征,并将正常性聚类视为独立类别,该方法实现了最先进性能,在ShanghaiTech数据集上的AUC绝对提升8.4%,相较于先前工作。
Abnormal event detection in video is a challenging vision problem. Most existing approaches formulate abnormal event detection as an outlier detection task, due to the scarcity of anomalous data during training. Because of the lack of prior information regarding abnormal events, these methods are not fully-equipped to differentiate between normal and abnormal events. In this work, we formalize abnormal event detection as a one-versus-rest binary classification problem. Our contribution is two-fold. First, we introduce an unsupervised feature learning framework based on object-centric convolutional auto-encoders to encode both motion and appearance information. Second, we propose a supervised classification approach based on clustering the training samples into normality clusters. A one-versus-rest abnormal event classifier is then employed to separate each normality cluster from the rest. For the purpose of training the classifier, the other clusters act as dummy anomalies. During inference, an object is labeled as abnormal if the highest classification score assigned by the one-versus-rest classifiers is negative. Comprehensive experiments are performed on four benchmarks: Avenue, ShanghaiTech, UCSD and UMN. Our approach provides superior results on all four data sets. On the large-scale ShanghaiTech data set, our method provides an absolute gain of 8.4% in terms of frame-level AUC compared to the state-of-the-art method [Sultani et al., CVPR 2018].
研究动机与目标
- 为解决视频中异常事件检测的挑战,其中异常事件稀少且依赖上下文,通过超越传统异常值检测方法。
- 通过聚焦场景中的对象,利用基于对象中心的卷积自编码器,改进外观和运动的特征表示。
- 将异常事件检测形式化为多分类问题,而非异常值检测任务,利用聚类定义正常性类别。
- 通过一对多分类生成合成的异常训练数据,其中其他聚类作为虚假异常样本。
- 通过结合基于对象中心的特征学习与判别性分类,实现在基准数据集上的优越性能。
提出的方法
- 使用单阶段检测器(SSD)在每一帧上执行目标检测,以定位相关对象。
- 基于从检测到的对象中提取的外观和运动特征,独立训练基于对象中心的卷积自编码器。
- 使用k-means对自编码器的潜在表示进行聚类,形成多个正常性聚类。
- 为每个聚类训练一个一对多二分类器,将所有其他聚类视为负样本(虚假异常样本)。
- 在推理阶段,若所有一对多分类器中的最高分类得分结果为负,则将测试样本标记为异常。
- 该方法利用多分类学习的判别能力,同时保持对正常场景的无监督特征学习。
实验结果
研究问题
- RQ1与帧级或局部特征提取相比,基于对象中心的特征学习是否能提升异常事件检测性能?
- RQ2将异常事件检测形式化为基于正常性聚类的多分类问题,是否优于传统的单类异常值检测方法?
- RQ3在训练一对多分类器进行异常检测时,将其他聚类作为“虚假异常”样本的效果如何?
- RQ4外观特征与运动特征在视频中检测异常事件时的贡献分别是什么?
- RQ5所提出的框架能否在具有不同场景复杂度和异常类型多样化的视频基准数据集中实现泛化?
主要发现
- 在ShanghaiTech数据集上,所提方法在帧级别AUC达到84.9%,相较于最先进方法[34]实现了8.4%的绝对提升。
- 在Avenue数据集上,该方法在帧级别AUC上相较于先前最先进方法[14]实现了1.5%的绝对提升。
- 消融实验表明,若移除基于对象中心的自编码器特征,性能将下降至72.4% AUC,凸显了对象级表征的重要性。
- 将一对多SVM替换为单类SVM导致AUC下降5.7%,证明了多分类形式化的优势。
- 该方法对超参数选择具有鲁棒性,不同SVM正则化参数下,帧级别AUC变化小于0.3%。
- 该框架在Titan Xp GPU上以约11 FPS的速度处理视频,其中目标检测为主要性能瓶颈。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。