Skip to main content
QUICK REVIEW

[论文解读] Video Anomaly Detection and Localization via Gaussian Mixture Fully Convolutional Variational Autoencoder

Yaxiang Fan, Gongjian Wen|arXiv (Cornell University)|May 29, 2018
Anomaly Detection Techniques and Applications参考文献 36被引用 39
一句话总结

本文提出了一种新颖的端到端、部分监督深度学习框架,用于仅使用正常训练样本的视频异常检测与定位。该方法采用具有空间保持编码器-解码器结构的高斯混合全卷积变分自编码器(GM-FCVAE),将正常视频模式建模为高斯分布的混合,利用基于分量概率的样本能量得分检测异常;该方法在UCSD和Avenue数据集上实现了最先进性能。

ABSTRACT

We present a novel end-to-end partially supervised deep learning approach for video anomaly detection and localization using only normal samples. The insight that motivates this study is that the normal samples can be associated with at least one Gaussian component of a Gaussian Mixture Model (GMM), while anomalies either do not belong to any Gaussian component. The method is based on Gaussian Mixture Variational Autoencoder, which can learn feature representations of the normal samples as a Gaussian Mixture Model trained using deep learning. A Fully Convolutional Network (FCN) that does not contain a fully-connected layer is employed for the encoder-decoder structure to preserve relative spatial coordinates between the input image and the output feature map. Based on the joint probabilities of each of the Gaussian mixture components, we introduce a sample energy based method to score the anomaly of image test patches. A two-stream network framework is employed to combine the appearance and motion anomalies, using RGB frames for the former and dynamic flow images, for the latter. We test our approach on two popular benchmarks (UCSD Dataset and Avenue Dataset). The experimental results verify the superiority of our method compared to the state of the arts.

研究动机与目标

  • 开发一种端到端深度学习方法,用于仅需正常训练样本的视频异常检测与定位。
  • 使用变分自编码与全卷积架构,将正常视频模式建模为高斯分量的混合。
  • 通过全卷积编码器-解码器结构在特征图中保留空间坐标,以实现精确的异常定位。
  • 通过RGB和光流输入的双流网络融合外观与运动特征。
  • 在标准基准上实现优异性能,且监督程度最低。

提出的方法

  • 使用高斯混合变分自编码器(GM-VAE)将正常样本的特征表示学习为高斯分布的混合。
  • 采用无全连接层的全卷积网络(FCN),在输入与输出特征图之间保留空间信息。
  • 通过计算每个特征图块在高斯混合分量中的联合概率,估计异常得分。
  • 引入基于能量的评分方法,其中联合概率越低,表示异常可能性越高。
  • 采用双流网络架构,融合来自RGB帧的外观特征与来自光流图像的运动特征。
  • 该框架仅使用正常视频片段进行端到端训练,实现无监督异常检测。

实验结果

研究问题

  • RQ1深度生成模型能否仅使用正常样本有效学习正常视频模式的分布?
  • RQ2全卷积架构能否保留空间精度以实现准确的异常定位?
  • RQ3通过双流网络融合外观与运动特征是否能提升检测性能?
  • RQ4基于高斯混合分量概率的能量评分能否有效识别异常?
  • RQ5所提出的GM-FCVAE在标准视频异常检测基准上与最先进方法相比表现如何?

主要发现

  • 所提出的GM-FCVAE在UCSD行人数据集上实现了最先进性能,异常检测与定位效果均优于先前方法。
  • 在Avenue数据集上,该方法的F1得分高于现有方法,表明其在复杂场景中具有强大的泛化能力。
  • 消融实验确认,全卷积设计显著提升了定位精度,因其保留了空间坐标。
  • 外观与运动特征的双流融合相比单流基线方法带来了显著的性能提升。
  • 基于能量的评分机制能有效识别异常,尤其在杂乱或动态环境中表现优异。
  • 该模型在多样化视频场景中具有良好的泛化能力,包括人群密集场景与光照条件多变的环境。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。