QUICK REVIEW

[논문 리뷰] A Deep Convolutional Neural Network for Background Subtraction

Mohammadreza Babaee, Duc Tung Dinh|arXiv (Cornell University)|2017. 02. 06.

Video Surveillance and Tracking Methods참고 문헌 20인용 수 53

한 줄 요약

다수의 장면에서 패치를 사용해 학습된 보편적 CNN 기반 배경 제거 시스템을 제시하며, 실시간 성능을 달성하고 평균 순위에서 기존 방법들을 능가한다.

ABSTRACT

In this work, we present a novel background subtraction system that uses a deep Convolutional Neural Network (CNN) to perform the segmentation. With this approach, feature engineering and parameter tuning become unnecessary since the network parameters can be learned from data by training a single CNN that can handle various video scenes. Additionally, we propose a new approach to estimate background model from video. For the training of the CNN, we employed randomly 5 percent video frames and their ground truth segmentations taken from the Change Detection challenge 2014(CDnet 2014). We also utilized spatial-median filtering as the post-processing of the network outputs. Our method is evaluated with different data-sets, and the network outperforms the existing algorithms with respect to the average ranking over different evaluation metrics. Furthermore, due to the network architecture, our CNN is capable of real time processing.

연구 동기 및 목표

다양한 장면에 대해 수동 특징 엔지니어링 없이 강건한 배경 제거를 촉진한다.
CNN 기반 분할을 지원하는 배경 이미지 생성 방법을 제안한다.
이미지-배경 패치로 학습된 CNN 아키텍처(3 conv 층 + 2-layer MLP)를 개발한다.
분할 품질을 개선하기 위해 후처리(공간적 중간값 필터링)를 도입한다.
크로스-씬 일반화와 데이터셋 간 실시간 처리를 시연한다.

제안 방법

SuBSENSE 분할 및 Flux Tensor 기반 모션 분석을 사용해 메모리 길이를 조정하는 배경 이미지를 생성한다.
RGB 이미지-배경 패치(37x37 패치)와 정답 전경 마스크를 사용해 이진 교차 엔트로피(Binary Cross Entropy) 손실로 CNN을 학습한다.
CNN 아키텍처: ReLU 활성화, 배치 정규화가 있는 세 개의 컨볼루션 층에 이어 두 계층의 MLP와 시그모이드 출력을 가진다.
데이터 준비는 CDnet 2014 프레임의 약 5%를 사용하고, 패치는 240x320으로 재조정되며 제로 패딩과 평균을 뺀다.
CNN 출력에 공간적 중간값 필터링과 임계값 설정 단계를 적용해 최종 이진 분할을 얻는다.

실험 결과

연구 질문

RQ1장면 일반화된 CNN이 다수의 비디오 장면에서 이미지-배경 패치로부터 효과적인 배경 제거를 학습할 수 있는가?
RQ2제안된 강건한 배경 이미지 생성이 CNN의 분할 정확도를 향상시키는가?
RQ3제안된 아키텍처를 사용해 일반 하드웨어에서 실시간 배경 제거가 가능한가?
RQ4패치 기반 학습과 후처리의 영향은 도전적인 CDnet 2014 카테고리에서 분할 품질에 어떤 영향을 미치는가?
RQ5다양한 데이터셋(CDnet 2014, Wallflower, PETS 2009)에서 기존 알고리즘에 비해 방법의 성능은 어떠한가?

주요 결과

CNN 기반 시스템은 경쟁력 있는 성능을 보이며 표준 하드웨어에서 실시간 처리를 달성한다.
학습은 다양한 장면을 포함한 CDnet 2014 프레임의 약 5%를 사용해 보편적 특징을 학습한다.
배경 이미지는 SuBSENSE와 Flux Tensor Motion Information을 결합한 견고한 파이프라인을 통해 생성된다.
공간 중간값 필터링을 이용한 후처리는 분할의 안정성을 개선하고 노이즈를 줄인다.
평가 결과 이 방법은 평가 지표들에 대한 평균 순위에서 기존 알고리즘보다 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.