Skip to main content
QUICK REVIEW

[论文解读] A Deep Convolutional Neural Network for Background Subtraction

Mohammadreza Babaee, Duc Tung Dinh|arXiv (Cornell University)|Feb 6, 2017
Video Surveillance and Tracking Methods参考文献 20被引用 53
一句话总结

该论文提出一个基于CNN的通用背景减法系统,使用来自多个场景的补丁进行训练,能够实现实时性能并在平均排名上超越先前方法。

ABSTRACT

In this work, we present a novel background subtraction system that uses a deep Convolutional Neural Network (CNN) to perform the segmentation. With this approach, feature engineering and parameter tuning become unnecessary since the network parameters can be learned from data by training a single CNN that can handle various video scenes. Additionally, we propose a new approach to estimate background model from video. For the training of the CNN, we employed randomly 5 percent video frames and their ground truth segmentations taken from the Change Detection challenge 2014(CDnet 2014). We also utilized spatial-median filtering as the post-processing of the network outputs. Our method is evaluated with different data-sets, and the network outperforms the existing algorithms with respect to the average ranking over different evaluation metrics. Furthermore, due to the network architecture, our CNN is capable of real time processing.

研究动机与目标

  • 在多样化场景中实现鲁棒的背景减除,且无需手工特征工程。
  • 提出一种背景图像生成方法以支持基于CNN的分割。
  • 开发一个 CNN 架构(3 个卷积层 + 2 层 MLP),在图像-背景补丁上训练。
  • 结合后处理(空间中值滤波)以提高分割质量。
  • 展示跨场景泛化能力以及跨数据集的实时处理。

提出的方法

  • 使用 SuBSENSE 分割和基于 Flux Tensor 的运动分析来生成背景图像,以自适应内存长度。
  • 在带有真实前景掩码的 RGB 图像-背景补丁(37x37 补丁)上训练 CNN,使用 Binary Cross Entropy 损失。
  • CNN 架构:三个卷积层,带 ReLU 激活、批量归一化,随后是一个两层 MLP 和一个 sigmoid 输出。
  • 数据准备使用 ~5% 的 CDnet 2014 帧;补丁调整为 240x320,进行零填充并减去均值。
  • 对 CNN 输出进行空间中值滤波的后处理,并进行阈值化步骤以获得最终的二值分割。

实验结果

研究问题

  • RQ1一个能跨场景的 CNN 是否能从跨越多个视频场景的图像-背景补丁中学习到有效的背景减法?
  • RQ2提出的鲁棒背景图像生成是否能提升 CNN 的分割精度?
  • RQ3在常规硬件上,使用所提出的架构是否能够实现实时背景减法?
  • RQ4在具有挑战性的 CDnet 2014 类别上,基于补丁的训练和后处理对分割质量的影响如何?
  • RQ5与现有算法相比,该方法在多个数据集(CDnet 2014、Wallflower、PETS 2009)上的表现如何?

主要发现

  • 基于CNN的系统表现出竞争力并在标准硬件上实现实时处理。
  • 训练使用 CDnet 2014 帧的少量部分(~5%),涵盖多样场景以学习通用特征。
  • 背景图像通过将 SuBSENSE 与 Flux Tensor Motion Information 结合的鲁棒流水线生成。
  • 采用空间中值滤波的后处理提高分割稳定性并降低噪声。
  • 评估显示该方法在所评估指标的平均排名上超过了现有算法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。