Skip to main content
QUICK REVIEW

[論文レビュー] A Deep Convolutional Neural Network for Background Subtraction

Mohammadreza Babaee, Duc Tung Dinh|arXiv (Cornell University)|Feb 6, 2017
Video Surveillance and Tracking Methods参考文献 20被引用数 53
ひとこと要約

本論文は、複数のシーンからのパッチで訓練されたユニバーサルCNNベースの背景差分システムを提示し、リアルタイム性能を実現し、平均順位で既存手法を上回る。

ABSTRACT

In this work, we present a novel background subtraction system that uses a deep Convolutional Neural Network (CNN) to perform the segmentation. With this approach, feature engineering and parameter tuning become unnecessary since the network parameters can be learned from data by training a single CNN that can handle various video scenes. Additionally, we propose a new approach to estimate background model from video. For the training of the CNN, we employed randomly 5 percent video frames and their ground truth segmentations taken from the Change Detection challenge 2014(CDnet 2014). We also utilized spatial-median filtering as the post-processing of the network outputs. Our method is evaluated with different data-sets, and the network outperforms the existing algorithms with respect to the average ranking over different evaluation metrics. Furthermore, due to the network architecture, our CNN is capable of real time processing.

研究の動機と目的

  • 手動の特徴量設計を用いず、多様なシーンに対してロバストな背景差分を実現する動機づけ。
  • CNN ベースのセグメンテーションを支援する背景画像生成法を提案する。
  • 画像‑背景パッチで訓練される CNN アーキテクチャ(3 つの畳み込み層 + 2 層の MLP)を開発する。
  • セグメンテーション品質を向上させるため、空間的な中央値フィルタリングを含む後処理を組み込む。
  • データセットを横断したシーン間一般化とリアルタイム処理を実証する。

提案手法

  • SuBSENSE 分割と Flux Tensor に基づく動作解析を用いて背景画像を生成し、メモリ長を適応させる。
  • RGB image-background patches (37x37 patches) を用いて、真の前景マスクとともに Binary Cross Entropy 損失を使って CNN を訓練する。
  • CNN アーキテクチャ: ReLU 活性化を有する三つの畳み込み層、バッチ正規化、続いて二層の MLP と sigmoid 出力。
  • データ準備は CDnet 2014 フレームの約 5% を使用; パッチを 240x320 にリサイズし、ゼロパディングと平均減算を適用。
  • CNN の出力を空間的中央値フィルタリングと二値化の閾値処理を用いて最終的な二値セグメンテーションを得る。

実験結果

リサーチクエスチョン

  • RQ1複数のビデオシーンに跨る image-background patches から、シーン一般化されたCNNは効果的な背景差分を学習できるか?
  • RQ2提案された堅牢な背景画像生成はCNNのセグメンテーション精度を向上させるか?
  • RQ3提案されたアーキテクチャを用いて、従来のハードウェアでリアルタイムの背景差分を実現できるか?
  • RQ4難易度の高い CDnet 2014 のカテゴリにおいて、パッチベースの訓練と後処理がセグメンテーション品質に与える影響は?
  • RQ5複数データセット(CDnet 2014、Wallflower、PETS 2009)に対する本手法の性能は、既存アルゴリズムと比較してどうか?

主な発見

  • CNN ベースのシステムは競争力のある性能を示し、標準的なハードウェアでリアルタイム処理を達成する。
  • 訓練は多様なシーンを含む CDnet 2014 フレームのごく一部 (~5%) を用いて、普遍的な特徴を学習する。
  • 背景画像は SuBSENSE と Flux Tensor Motion Information を組み合わせた堅牢なパイプラインで生成される。
  • 空間中央値フィルタリングを用いた後処理は、セグメンテーションの安定性を向上させ、ノイズを低減する。
  • 評価の結果、平均ランキングで既存アルゴリズムを上回ることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。