QUICK REVIEW

[논문 리뷰] Iterative Crowd Counting

Viresh Ranjan, Hieu Lê|arXiv (Cornell University)|2018. 07. 26.

Video Surveillance and Tracking Methods참고 문헌 17인용 수 24

한 줄 요약

이 논문은 저해상도 밀도 맵을 먼저 예측한 다음 특징 융합를 통해 고해상도 출력으로 개선하는 이중 분지 컨볼루션 신경망 아키텍처인 반복적 군중 수세기(ic-CNN)를 제안한다. 이 방법은 기존 작업 대비 Shanghaitech Part B 데이터셋에서 평균 절대 오차를 48.3% 감소시켜 최신 기술 수준(SOTA) 성능을 달성한다.

ABSTRACT

In this work, we tackle the problem of crowd counting in images. We present a Convolutional Neural Network (CNN) based density estimation approach to solve this problem. Predicting a high resolution density map in one go is a challenging task. Hence, we present a two branch CNN architecture for generating high resolution density maps, where the first branch generates a low resolution density map, and the second branch incorporates the low resolution prediction and feature maps from the first branch to generate a high resolution density map. We also propose a multi-stage extension of our approach where each stage in the pipeline utilizes the predictions from all the previous stages. Empirical comparison with the previous state-of-the-art crowd counting methods shows that our method achieves the lowest mean absolute error on three challenging crowd counting benchmarks: Shanghaitech, WorldExpo'10, and UCF datasets.

연구 동기 및 목표

밀도에 극단적인 변동이 있는 이미지에서 정확한 군중 수세기의 과제를 해결한다.
다양한 이미지에서 광범위한 군중 밀도를 처리하는 데에 한계가 있는 단계적 CNN의 한계를 극복한다.
저해상도 예측을 고해상도 개선을 위한 맥락적 특징으로 활용하여 밀도 추정 정확도를 향상시킨다.
이전 단계의 예측을 순차적으로 통합하는 다단계 확장 기반의 성능 향상을 위한 프레임워크를 개발한다.
기존의 다중 컬럼 접근 방식에 비해 최소한의 아키텍처 복잡도로 기준 군중 수세기 데이터셋에서 최신 기술 수준의 성능을 달성한다.

제안 방법

저해상도 CNN(LR-CNN)과 고해상도 CNN(HR-CNN)으로 구성된 이중 분지 컨볼루션 신경망 아키텍처를 제안하며, LR-CNN는 입력을 1/4 해상도에서 처리한다.
LR-CNN를 통해 저해상도 밀도 맵을 생성하고 컨볼루션 특징을 추출한 후, 이를 HR-CNN의 특징과 융합한다.
HR-CNN가 자체 특징과 함께 LR-CNN의 저해상도 예측 및 특징 맵을 융합하여 고해상도 밀도 맵을 예측하도록 훈련시킨다.
여러 개의 ic-CNN 모델을 스택하여 다단계 확장을 도입하며, 각 단계는 이전 모든 단계의 예측을 입력으로 사용한다.
저해상도 예측과 고해상도 특징 간의 특징 수준 융합을 통해 공간적 세부 정보와 밀도 정확도를 향상시킨다.
예측된 밀도 맵과 진짜 밀도 맵 간의 표준 L1 손실을 사용하여 네트워크를 훈련시키며, 평균 절대 오차를 최소화한다.

실험 결과

연구 질문

RQ1이중 분지 반복적 CNN 아키텍처가 기존의 다중 컬럼 또는 스위칭 CNN보다 군중 수세기 정확도에서 뛰어나게 되는가?
RQ2저해상도 밀도 예측을 맥락적 특징으로 통합함으로써 고해상도 밀도 추정 성능이 향상되는가?
RQ3반복 프레임워크의 다단계 확장이 기준 데이터셋에서 평균 절대 오차를 추가로 감소시키는가?
RQ4Shanghaitech, WorldExpo’10 및 UCF와 같이 밀도가 극명하게 다른 다양한 데이터셋에 대해 제안된 방법이 얼마나 잘 일반화되는가?
RQ5접촉 또는 작은 조밀한 군집과 같은 어려운 케이스에서 모델 성능이 얼마나 떨어지는가?

주요 결과

ic-CNN는 이전 최신 기술 수준 방법인 CP-CNN 대비 Shanghaitech Part B 데이터셋에서 평균 절대 오차를 48.3% 감소시켰다.
WorldExpo’10 데이터셋에서 ic-CNN는 여섯 가지 평가 케이스 중 세 곳에서 모든 이전 방법을 앞서며 평균 MAE 10.3으로 최저 기록을 달성했다.
UCF 군중 수세기 데이터셋에서 ic-CNN는 MAE 260.9, RMSE 365.5를 기록하여 CP-CNN(마진 MAE: 295.8)보다 뚜렷이 뛰어난 성능을 보였다.
정성적 결과 분석에서 ic-CNN는 조밀한 군중을 성공적으로 예측하지만, 실패 케이스에서는 종종 나뭇잎을 사람으로 잘못 분류하는 경향을 보였다.
다단계 확장은 다수의 ic-CNN 단계에서의 예측를 통합함으로써 성능 향상을 이끌어내며, 반복적 개선의 이점을 입증했다.
다양한 밀도를 가진 데이터셋, 특히 매우 조밀한 장면과 평균 1,280명의 인원이 포함된 UCF의 경우와 같은 대규모 평균 수치를 가진 장면에서도 잘 일반화됨을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.