[论文解读] Cleaning Label Noise with Clusters for Minimally Supervised Anomaly Detection
该论文提出了一种弱监督异常检测框架,利用二值聚类来清理仅在视频级别标注的视频中的标签噪声。通过联合优化深度网络与基于聚类的伪标签生成,该方法在UCF-Crime数据集上实现了78.27%的帧级AUC,在ShanghaiTech数据集上实现了84.16%的帧级AUC,显著优于在噪声大、监督信号极少的设置下先前的方法。
Learning to detect real-world anomalous events using video-level annotations is a difficult task mainly because of the noise present in labels. An anomalous labelled video may actually contain anomaly only in a short duration while the rest of the video can be normal. In the current work, we formulate a weakly supervised anomaly detection method that is trained using only video-level labels. To this end, we propose to utilize binary clustering which helps in mitigating the noise present in the labels of anomalous videos. Our formulation encourages both the main network and the clustering to complement each other in achieving the goal of weakly supervised training. The proposed method yields 78.27% and 84.16% frame-level AUC on UCF-crime and ShanghaiTech datasets respectively, demonstrating its superiority over existing state-of-the-art algorithms.
研究动机与目标
- 解决仅提供视频级别标签时训练鲁棒异常检测模型的挑战,此类标签常因部分异常而存在显著噪声。
- 通过引入基于聚类的优化机制,减轻正常片段被错误标记为异常的噪声标签影响。
- 构建一种联合学习框架,使深度网络与聚类算法在训练过程中相互促进,从而提升检测性能。
- 在基准数据集上实现最先进性能,且在最小化监督设置下运行,避免对昂贵的帧级标注的依赖。
提出的方法
- 将每个视频划分为16帧(f=16)的非重叠片段,以支持片段级别的分析。
- 使用预训练的C3D网络从每个片段中提取特征,获得紧凑的表示。
- 将片段特征输入一个包含ReLU和Dropout的两层全连接网络,用于异常分数预测。
- 对第一层全连接层的特征应用二值聚类(k=2),将片段划分为正常与异常两类。
- 引入聚类距离损失($L_c$),以促进异常视频中聚类间的分离,以及正常视频中聚类的融合。
- 基于聚类分配结果,为异常视频中的片段生成伪标签($y^p$),用细化后的片段级监督替代原始的统一视频级标签。
实验结果
研究问题
- RQ1在仅提供视频级别标签的弱监督异常检测中,二值聚类能否有效降低标签噪声?
- RQ2与独立模型相比,深度神经网络与聚类算法之间的联合优化框架是否能提升检测性能?
- RQ3在UCF-Crime和ShanghaiTech等标准基准上,所提出的基于聚类的伪标签方法与现有方法相比,AUC表现如何?
- RQ4聚类距离损失与伪标签对整体性能提升的贡献分别是什么?
主要发现
- 所提方法在UCF-Crime数据集上实现了78.27%的帧级AUC,优于所有对比的最先进方法,仅除Zhong等人[8](其使用更复杂的图卷积网络)外。
- 在ShanghaiTech数据集上,该方法实现了84.16%的帧级AUC,相较于Zhong等人[8]在相同评估协议下高出7.72个百分点。
- 消融实验表明,若移除基于聚类的伪标签($y^p$),ShanghaiTech数据集上的AUC下降2.51%,UCF-Crime数据集上下降1.63%,证明其对性能的关键作用。
- 聚类距离损失($L_c$)贡献显著,当其被移除时,ShanghaiTech数据集上AUC下降0.79%,UCF-Crime数据集上下降1.09%,表明其在聚类分离中的重要性。
- 定性结果表明,模型生成了清晰的异常分数模式,能明确突出异常片段,同时有效抑制正常视频中的误报。
- 该方法仅使用C3D特征和单流架构,即实现了SOTA结果,无需多流输入或复杂结构,确保了高效性与可复现性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。