QUICK REVIEW

[논문 리뷰] Beyond Counting: Comparisons of Density Maps for Crowd Analysis Tasks - Counting, Detection, and Tracking

Di Kang, Zheng Ma|arXiv (Cornell University)|2017. 05. 29.

Video Surveillance and Tracking Methods참고 문헌 35인용 수 24

한 줄 요약

이 논문은 군중 분석을 위한 밀도 맵 추정 방법을 평가하며, 세고, 감지, 추적 작업 전반에 걸쳐 저해상도와 전체 해상도 밀도 맵을 비교한다. 저해상도 맵은 세는 작업에서 잘 수행되지만, 슬라이딩 윈도우 CNN(이하 CNN-pixel) 및 스킵 연결을 갖춘 완전 컨volution 네트워크(이하 FCNN-skip)를 통해 생성된 전체 해상도 맵은 업샘플링보다 현저히 뛰어난 국소화 성능을 보이며, 계산 비용과 복잡도가 약간 높아 계산 정확도는 다소 떨어지지만 국소화 작업에서 뛰어난 성능을 발휘한다.

ABSTRACT

For crowded scenes, the accuracy of object-based computer vision methods declines when the images are low-resolution and objects have severe occlusions. Taking counting methods for example, almost all the recent state-of-the-art counting methods bypass explicit detection and adopt regression-based methods to directly count the objects of interest. Among regression-based methods, density map estimation, where the number of objects inside a subregion is the integral of the density map over that subregion, is especially promising because it preserves spatial information, which makes it useful for both counting and localization (detection and tracking). With the power of deep convolutional neural networks (CNNs) the counting performance has improved steadily. The goal of this paper is to evaluate density maps generated by density estimation methods on a variety of crowd analysis tasks, including counting, detection, and tracking. Most existing CNN methods produce density maps with resolution that is smaller than the original images, due to the downsample strides in the convolution/pooling operations. To produce an original-resolution density map, we also evaluate a classical CNN that uses a sliding window regressor to predict the density for every pixel in the image. We also consider a fully convolutional (FCNN) adaptation, with skip connections from lower convolutional layers to compensate for loss in spatial information during upsampling. In our experiments, we found that the lower-resolution density maps sometimes have better counting performance. In contrast, the original-resolution density maps improved localization tasks, such as detection and tracking, compared to bilinear upsampling the lower-resolution density maps. Finally, we also propose several metrics for measuring the quality of a density map, and relate them to experiment results on counting and localization.

연구 동기 및 목표

다양한 군중 분석 작업(세기, 감지, 추적)에서 밀도 맵 추정 방법의 성능을 평가하는 것.
업샘플링된 저해상도 맵과 비교해 전체 해상도 밀도 맵이 국소화 정확도를 향상시킬 수 있는지 조사하는 것.
정확한 세기와 효과적인 감지/추적을 지원하는 고품질 밀도 맵의 특성을 규명하고 정량화하는 것.
공간적 밀도, 국소화 정확도, 시간적 일관성 기반으로 밀도 맵 품질을 평가하기 위한 새로운 지표를 제안하는 것.
다양한 네트워크 아키텍처와 학습 전략 간의 계산 복잡도와 성능 간의 상호 상충 관계를 이해하는 것.

제안 방법

입력 이미지의 각 픽셀에 대해 밀도 값을 예측하는 슬라이딩 윈도우 CNN(CNN-pixel)을 제안하여 전체 해상도 밀도 맵을 생성한다.
낮은 층에서의 정보를 유지하기 위해 CNN-pixel을 스킵 연결을 갖춘 완전 컨volution 네트워크(FCNN-skip)로 변형한다.
구조적 충실도와 전반적 정확도를 균형 있게 유지하기 위해 픽셀 단위의 회귀 손실과 패치 단위의 수세기 손실을 조합한 다중 작업 손실을 사용해 모델을 훈련시킨다.
다양한 인덕티브 바이어스를 가진 전체 해상도 예측을 탐색하기 위해 구멍 컨볼루션과 다른 네트워크 아키텍처(예: DenseNet 변종)를 활용한다.
공간적 밀도, 국소화 정밀도, 시간적 일관성과 같은 새로운 평가 지표를 도입하여 밀도 맵 품질을 분석한다.
기존 표준 데이터셋(UCSD, ShanghaiTech)을 사용해 세기(MAE), 감지(IntProg, GMM-weight), 추적(MOT 지표) 작업에서 방법을 비교한다.

실험 결과

연구 질문

RQ1세기, 감지, 추적 작업 전반에 걸쳐 저해상도 밀도 맵과 전체 해상도 밀도 맵의 성능을 어떻게 비교할 수 있는가?
RQ2밀도 값의 조밀한 픽셀 예측 방식(CNN-pixel)으로 생성된 전체 해상도 밀도 맵이 업샘플링된 저해상도 맵보다 더 나은 국소화 성능을 달성할 수 있는가?
RQ3손실 함수(픽셀 단위, 수세기 단위, 또는 병합된 형태)가 예측된 밀도 맵의 공간적 구조와 정확도에 어떤 영향을 미치는가?
RQ4스킵 연결, 구멍 컨볼루션, 네트워크 깊이 등의 아키텍처 선택이 밀도 맵의 품질과 후속 작업에 대한 유용성에 어떤 영향을 미치는가?
RQ5유사한 세기 정확도를 보이지만 국소화 성능이 다른 밀도 맵 간의 성능 차이를 가장 잘 설명하는 지표는 무엇인가?

주요 결과

CNN-pixel로 생성된 전체 해상도 밀도 맵이 감지 및 추적 작업에서 이중 보간 업샘플링된 저해상도 맵보다 가장 뛰어난 성능을 보였다.
저해상도 밀도 맵(예: MCNN 또는 스킵 연결이 없는 FCNN)은 전체 해상도 방법(예: CNN-pixel: MAE: 1.41)보다 더 높은 세기 정확도(MAE: 1.26)를 달성했으며, 이는 해상도와 전반적 수세기 정확도 사이의 상충 관계를 시사한다.
픽셀 단위 및 수세기 단위 손실을 모두 사용한 FCNN-skip 모델이 가장 균형 잡힌 성능을 보였으며, MAE는 1.26이었고 국소화 품질도 뛰어났다. 반면 수세기 손실을 제거하면 오차가 MAE: 1.41로 증가했다.
수세기 손실만을 사용해 훈련한 밀도 맵은 밀도 값을 퍼뜨려 국소화 성능이 떨어지고 MAE가 1.82로 증가했다. 이는 공간적 구조 유지를 위해 픽셀 단위의 감독이 필수적임을 보여준다.
시각적 관점 인식 기반의 진짜 밀도 맵(CNN-pixel-VS)을 사용한 결과, 모든 작업에서 성능이 저하되었으며 MAE가 1.48로 증가했다. 이는 과도하게 매끄러운 예측 때문이었다.
구멍 컨볼루션 기반의 전체 해상도 예측은 성능이 열악했으며(MAE: 1.93), 업샘플링 기반의 FCNN보다도 느렸다. 이는 스킵 연결을 사용한 업샘플링이 전체 해상도 밀도 추정에 더 효과적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.