Skip to main content
QUICK REVIEW

[论文解读] An Attribute-based Method for Video Anomaly Detection

Tal Reiss, Yedid Hoshen|arXiv (Cornell University)|Dec 1, 2022
Anomaly Detection Techniques and Applications被引用 21
一句话总结

本论文提出一种可解释的基于属性的视频异常检测方法,利用对象中心的速度与姿态特征,并结合深层表示,在不需要训练的情况下,在 Ped2、Avenue 和 ShanghaiTech 数据集上实现了最先进的 AUROC。

ABSTRACT

Video anomaly detection (VAD) identifies suspicious events in videos, which is critical for crime prevention and homeland security. In this paper, we propose a simple but highly effective VAD method that relies on attribute-based representations. The base version of our method represents every object by its velocity and pose, and computes anomaly scores by density estimation. Surprisingly, this simple representation is sufficient to achieve state-of-the-art performance in ShanghaiTech, the most commonly used VAD dataset. Combining our attribute-based representations with an off-the-shelf, pretrained deep representation yields state-of-the-art performance with a $99.1\%, 93.7\%$, and $85.9\%$ AUROC on Ped2, Avenue, and ShanghaiTech, respectively.

研究动机与目标

  • 由于异常的歧义性和需要人类可理解的推理,推动可解释的 VAD 研究。
  • 提出一种简单的基于属性的表示(速度和姿态)来描述视频帧中的对象。
  • 将显式属性表示与隐式深层特征结合,以最大化性能。
  • 在三个公开 VAD 数据集中演示最先进的性能。

提出的方法

  • 基于对象的视频表示,结合速度、姿态和深度特征(CLIP)。
  • 速度:对每个对象在各定向区间内的平均光流幅值进行直方图式聚合。
  • 姿态:对每个对象在单帧的人体姿态关键点进行归一化处理,转换为尺寸不变的描述符(AlphaPose)。
  • 深度特征:基于 CLIP 的对象级嵌入,捕捉显式属性之外的剩余属性。
  • 基于密度的异常评分:对每个特征建立独立估计器(速度使用高斯混合模型 GMM;姿态和深度特征使用 kNN),以逐帧在对象层面取最大分数,再进行校准和时间平滑。

实验结果

研究问题

  • RQ1简单且可解释的基于对象的属性(速度和姿态)能否在 VAD 中有效检测异常?
  • RQ2将显式属性表示与隐式深层表示结合是否能提升 VAD 性能?
  • RQ3基于密度估计的异常分数是否能与标准 VAD 数据集的最先进方法竞争?
  • RQ4模型决策的可解释性如何,属性能为异常提供何种推理依据?

主要发现

数据集Ped2 Micro AUROCPed2 Macro AUROCAvenue Micro AUROCAvenue Macro AUROCShanghaiTech Micro AUROCShanghaiTech Macro AUROC
Ours99.199.993.396.285.989.6
  • 仅使用属性表示,或结合深度特征时,在 Ped2(微 AUROC 99.1)、Avenue(微 93.3)、ShanghaiTech(微 85.9)上达到最先进的帧级 AUROC。
  • 速度特征在 Avenue 和 ShanghaiTech 上提供最强信号;速度与姿态的组合表现很高;添加深度特征在某些数据集上有提升,但有时因干扰属性而降低。
  • 总体上,在 Ped2 上达到微 AUROC 99.1% 和宏 AUROC 99.9%,在 Avenue 上微 93.3% 宏 96.2%,在 ShanghaiTech 上微 85.9% 宏 89.6%(表 2)。
  • 该方法给出可解释的决策:异常与异常的速度、姿态或深度特征差异相关,便于人类理解推理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。