QUICK REVIEW

[논문 리뷰] FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras

Shanghang Zhang, Guanhang Wu|arXiv (Cornell University)|2017. 07. 29.

Video Surveillance and Tracking Methods참고 문헌 25인용 수 23

한 줄 요약

이 논문은 저해상도 도시 카메라 영상에서 차량 수를 세는 데에 적합한 완전 컨볼루션 네트워크(FCN)와 잔차 장기 단기 기억(rLSTM) 네트워크를 조합한 깊이 있는 시공간 신경망인 FCN-rLSTM을 제안한다. 누적 밀도 맵을 기준으로 잔차 학습을 통해 시간적 동역학을 모델링함으로써, 기준 데이터셋에서 평균 절대 오차(MAE)를 최대 42% 감소시키고 학습 속도를 5배로 향상시켜 저해상도, 저프레임레트, 고차폐 조건에서도 뛰어난 강건성을 입증한다.

ABSTRACT

In this paper, we develop deep spatio-temporal neural networks to sequentially count vehicles from low quality videos captured by city cameras (citycams). Citycam videos have low resolution, low frame rate, high occlusion and large perspective, making most existing methods lose their efficacy. To overcome limitations of existing methods and incorporate the temporal information of traffic video, we design a novel FCN-rLSTM network to jointly estimate vehicle density and vehicle count by connecting fully convolutional neural networks (FCN) with long short term memory networks (LSTM) in a residual learning fashion. Such design leverages the strengths of FCN for pixel-level prediction and the strengths of LSTM for learning complex temporal dynamics. The residual learning connection reformulates the vehicle count regression as learning residual functions with reference to the sum of densities in each frame, which significantly accelerates the training of networks. To preserve feature map resolution, we propose a Hyper-Atrous combination to integrate atrous convolution in FCN and combine feature maps of different convolution layers. FCN-rLSTM enables refined feature representation and a novel end-to-end trainable mapping from pixels to vehicle count. We extensively evaluated the proposed method on different counting tasks with three datasets, with experimental results demonstrating their effectiveness and robustness. In particular, FCN-rLSTM reduces the mean absolute error (MAE) from 5.31 to 4.21 on TRANCOS, and reduces the MAE from 2.74 to 1.53 on WebCamT. Training process is accelerated by 5 times on average.

연구 동기 및 목표

기존 방법이 실패하는 저해상도, 저프레임레트, 고차폐 조건의 도시 카메라 영상에서 정확한 차량 수 세기 문제를 해결하기 위해.
제한된 운동과 해상도 조건에서도 순차적 영상 프레임 간의 시간적 상관관계를 활용하여 수치 정확도를 향상시키기 위해.
차량 밀도와 총 수를 동시에 추정하는 엔드 투 엔드 학습 가능한 시공간 딥 러닝 프레임워크를 개발하기 위해.
총 수 회귀 문제를 누적 밀도 합에 대한 잔차 함수 학습으로 재구성함으로써 학습 속도를 향상시키기 위해.
다양한 교통 환경과 데이터셋, 다양한 영상 품질과 시간적 일관성 조건에서도 강건한 성능을 달성하기 위해.

제안 방법

FCN-rLSTM는 픽셀 수준의 차량 밀도 예측을 위한 완전 컨볼루션 네트워크(FCN)와 시간적 동역학을 모델링하기 위한 스택된 장기 단기 기억(LSTM) 네트워크를 통합한다.
잔차 학습 연결을 통해 전체 차량 수 회귀 문제를 프레임 간 밀도 맵의 합에 대한 잔차 함수 학습으로 재구성함으로써 학습 안정성과 속도를 향상시킨다.
하이퍼-아트로스 조합은 FCN 내에서 확장된(아트로스) 컨볼루션과 다중 컨볼루션 레이어의 특징 맵 융합을 통합하여 공간 해상도를 유지하고 특징 표현을 향상시킨다.
네트워크는 영상 프레임을 순차적으로 처리하며, FCN 출력물(밀도 맵)을 LSTMs에 입력하여 잔차 수를 예측하고, 누적 밀도와 합산하여 최종 차량 수를 산출한다.
전체 아키텍처는 엔드 투 엔드로 학습 가능하여 원시 픽셀에서부터 전체 차량 수까지 직접 최적화할 수 있다.
시간적 상관관계가 있는지 여부에 따라 데이터셋에 적합하게 조정되며, 시간적 데이터의 경우 FCN-rLSTM, 비시간적 데이터의 경우 FCN-HA 구성으로 선택 가능하다.

실험 결과

연구 질문

RQ1저프레임레트와 고차폐 조건의 저품질 도시카메라 영상에서 깊이 있는 시공간 네트워크 아키텍처가 차량 수의 동역학을 효과적으로 모델링할 수 있는가?
RQ2FCN와 LSTM 간의 잔차 학습을 통합함으로써 차량 수 세기 작업에서 학습 속도와 수렴 성능이 향상되는가?
RQ3확장된 컨볼루션과 다중 척도 특징 융합의 통합이 저해상도 영상 입력에서의 특징 표현을 향상시킬 수 있는가?
RQ4다양한 데이터셋에서 최첨단 기술 대비 정확도와 강건성 측면에서 제안된 방법은 어떻게 비교되는가?
RQ5운동과 해상도가 제한된 조건에서 순차적 프레임 간 시간적 상관관계가 차량 수 세기 성능을 얼마나 향상시키는가?

주요 결과

TRANCOS 데이터셋에서 FCN-rLSTM은 평균 절대 오차(MAE)를 5.31에서 4.21로 감소시켜 최고의 베이스라인 대비 20.7% 향상시켰다.
WebCamT 데이터셋에서 FCN-rLSTM은 MAE를 2.74에서 1.53으로 감소시켜 상대적 향상률 44.2%를 달성했다.
잔차 학습 구조 덕분에 비잔차 기반 베이스라인 대비 평균 학습 시간을 5배로 단축시켰다.
UCSD 보행자 수 세기 데이터셋에서 FCN-rLSTM은 MAE 1.54와 MSE 3.02를 기록하여 모든 베이스라인 방법과 FCN-HA 구성보다 뛰어난 성능을 보였다.
모델는 강력한 일반화 능력을 보이며, 객체 크기와 시나리오 복잡도의 차이에도 불구하고 차량 및 보행자 수 세기 작업 모두에서 경쟁적인 성능을 보였다.
제거 분석 결과, LSTM에 의한 시간 모델링이 순차적 일관성이 있는 데이터셋에서 성능 향상에 크게 기여함을 확인하여, 저품질 영상에서 시간적 상관관계의 중요성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.