[论文解读] Generative Cooperative Learning for Unsupervised Video Anomaly Detection
本文提出了一种新型无监督视频异常检测框架——生成式协作学习(GCL),通过相互生成的伪标签,以协作、迭代的方式训练生成器与判别器。该方法利用异常的低频特性,并引入一种负向学习策略,防止对异常内容的重建,从而在UCF-Crime和ShanghaiTech数据集上实现了SOTA性能,且完全无需人工标注的标签。
Video anomaly detection is well investigated in weakly-supervised and one-class classification (OCC) settings. However, unsupervised video anomaly detection methods are quite sparse, likely because anomalies are less frequent in occurrence and usually not well-defined, which when coupled with the absence of ground truth supervision, could adversely affect the performance of the learning algorithms. This problem is challenging yet rewarding as it can completely eradicate the costs of obtaining laborious annotations and enable such systems to be deployed without human intervention. To this end, we propose a novel unsupervised Generative Cooperative Learning (GCL) approach for video anomaly detection that exploits the low frequency of anomalies towards building a cross-supervision between a generator and a discriminator. In essence, both networks get trained in a cooperative fashion, thereby allowing unsupervised learning. We conduct extensive experiments on two large-scale video anomaly detection datasets, UCF crime, and ShanghaiTech. Consistent improvement over the existing state-of-the-art unsupervised and OCC methods corroborate the effectiveness of our approach.
研究动机与目标
- 解决无监督视频异常检测中的挑战,即缺乏标注数据且异常样本稀少且定义不明确。
- 开发一种方法,学习鲁棒的正常表征,而不依赖于一类分类或弱监督假设。
- 通过利用彼此生成的伪标签,在生成器与判别器之间建立相互监督,实现完全无监督训练。
- 通过一种新颖的负向学习方法,防止生成器重建高置信度的异常区域,从而提升异常定位能力。
提出的方法
- 该框架由一个生成器和一个判别器组成,二者以交替、协作的方式训练,完全不依赖真实标签。
- 生成器重建输入帧,并通过负向学习(NL)对高置信度异常表征进行扭曲,使用'1'作为伪目标,以惩罚对异常内容的重建。
- 判别器估计输入为异常的概率,使用由生成器重建误差生成的伪标签。
- 伪标签通过阈值化生成器的重建误差生成,'1'被证明是负向学习的最优伪目标。
- 生成器同时使用重建损失和负向学习损失进行训练,而判别器则使用伪标签的交叉熵损失进行训练。
- 系统在更新生成器和判别器之间交替进行,通过交叉监督实现相互改进。
实验结果
研究问题
- RQ1生成器与判别器之间的协作学习框架是否能在无监督视频异常检测中实现SOTA性能?
- RQ2负向学习在无任何异常标注的情况下,是否能有效防止生成器重建异常内容?
- RQ3与自监督或一类分类基线相比,生成器与判别器之间的相互伪标签机制是否能提升检测性能?
- RQ4伪目标的选择(如'1'、随机值、高斯分布)在多大程度上影响GCL框架的性能?
主要发现
- GCL在仅使用无标签训练数据的UCF-Crime数据集上实现了70.13 ± 0.52的AUC,优于现有的无监督方法和一类分类方法。
- 在负向学习中使用'1'作为伪目标时性能最佳,显著优于随机和高斯扰动。
- GCLP T变体相比GCLB展现出更好的收敛性与更低的随机种子方差,平均AUC为70.13 ± 0.52。
- 即使引入33%的弱监督(视频级标签),AUC也显著提升,表明最小程度的监督可有效增强学习效果。
- 使用生成器自身伪标签进行训练仅获得62.28%的AUC,低于GCLP T的71.04%,证明判别器对噪声标签的鲁棒性至关重要。
- 使用软标签而非阈值化处理时,性能几乎与基线相同,表明判别器仅复制了生成器的输出,未实现性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。