QUICK REVIEW

[논문 리뷰] Crowd counting via scale-adaptive convolutional neural network

Lu Zhang, Miaojing Shi|arXiv (Cornell University)|2017. 11. 13.

Video Surveillance and Tracking Methods참고 문헌 31인용 수 23

한 줄 요약

이 논문은 고정된 작은 수신장이 있는 깊은 CNN의 여러 층에서 추출한 특징 맵을 융합하여 척도 및 시점 변화에 적응적으로 대응할 수 있도록 하는 스케일 적응형 합성곱 신경망(SaCNN)을 제안한다. 밀도 맵 손실 외에 상대적 카운트 손실을 도입함으로써 SaCNN은 희박한 군중 장면에서 일반화 능력을 크게 향상시켜 상하이테크, UCF_CC_50, 월드엑spo’10 및 새로운 희박한 군중 데이터셋인 스마트시티에서 최신 기술(SOTA) 성능을 달성한다.

ABSTRACT

The task of crowd counting is to automatically estimate the pedestrian number in crowd images. To cope with the scale and perspective changes that commonly exist in crowd images, state-of-the-art approaches employ multi-column CNN architectures to regress density maps of crowd images. Multiple columns have different receptive fields corresponding to pedestrians (heads) of different scales. We instead propose a scale-adaptive CNN (SaCNN) architecture with a backbone of fixed small receptive fields. We extract feature maps from multiple layers and adapt them to have the same output size; we combine them to produce the final density map. The number of people is computed by integrating the density map. We also introduce a relative count loss along with the density map loss to improve the network generalization on crowd scenes with few pedestrians, where most representative approaches perform poorly on. We conduct extensive experiments on the ShanghaiTech, UCF_CC_50 and WorldExpo datasets as well as a new dataset SmartCity that we collect for crowd scenes with few people. The results demonstrate significant improvements of SaCNN over the state-of-the-art.

연구 동기 및 목표

희박한 장면에서 기존 방법이 성능을 내지 못하는 척도 및 시점 변화 문제를 해결하기 위해.
공간 해상도를 유지하고 깊고 효율적인 학습을 가능하게 하기 위해 고정된 작은 필터를 사용하는 단일 컬럼 CNN 기반 아키텍처를 설계하기 위해.
다중 작업 목적 함수로 상대적 카운트 손실을 도입하여 희박한 군중 장면에서의 일반화 능력을 향상시키기 위해.
고각도 촬영과 평균 7.4명의 보행자(이미지당)를 포함한 새로운 데이터셋 스마트시티를 수집하고 공개하여 희박한 군중 카운팅을 보다 효과적으로 평가하기 위해.
다중 척도 특징 융합을 갖춘 단일 컬럼 아키텍처가 다중 컬럼 설계를 능가할 수 있으며, 더 단순하고 파rameter 효율적인지 입증하기 위해.

제안 방법

SaCNN은 작은 고정 크기의 필터를 사용하는 단일 CNN 기반 아키텍처를 통해 깊은 특징을 추출하면서도 고해상도 공간 해상도를 유지한다.
다양한 네트워크 층에서 추출한 특징 맵을 동일한 공간 크기로 업샘플링하고 연결하여 스케일 적응형 표현을 형성한다.
융합된 특징 맵을 사용하여 최종 밀도 맵을 회귀하고, 이로부터 통합을 통해 총 보행자 수를 산출한다.
표준 밀도 맵 손실 외에 상대적 카운트 손실을 포함하는 다중 작업 손실을 도입하여 희박한 장면에서의 성능을 향상시킨다.
상대적 카운트 손실은 이미지 패치 간 보행자 수의 상대적 비율을 학습하도록 유도하여 저밀도 이미지에서의 일반화 능력을 향상시킨다.
고각도 시점과 낮은 평균 보행자 수(이미지당 7.4명)를 가진 새로운 데이터셋 스마트시티를 수집하여 희박한 군중 카운팅 평가를 위해 활용한다.

실험 결과

연구 질문

RQ1다중 척도 특징 융합을 갖춘 단일 컬럼 CNN 아키텍처가 군중 카운팅에서 다중 컬럼 아키텍처를 능가할 수 있는가?
RQ2상대적 카운트 손실을 도입함으로써 희박한 군중 장면에서 일반화 능력이 향상되는가? (기존 방법이 실패하는 상황에서)
RQ3밀도가 높은 데이터셋에서 학습된 모델이 매우 희박한 군중 장면으로 일반화될 수 있는가?
RQ4제안된 방법은 매우 희박한 장면에서부터 매우 농도 있는 장면까지 다양한 군중 밀도에서 어떻게 성능을 내는가?
RQ5통합 기반 접근 방식이 전체 군중 밀도 스펙트럼에서 검출 기반 방법을 능가할 수 있는가?

주요 결과

SaCNN은 상하이테크, UCF_CC_50, 월드엑스포’10 데이터셋에서 최신 기술 성능을 달성하며, MAE와 MSE 모두 유의미한 향상이 이루어졌다.
이미지당 평균 7.4명의 보행자를 포함한 새로운 스마트시티 데이터셋에서 SaCNN은 MAE 8.6을 기록하여 평균 카운트에 가까운 성능을 보이며 희박한 장면에서 강력한 일반화 능력을 입증했다.
상대적 카운트 손실이 포함된 SaCNN은 손실이 없는 SaCNN 대비 MAE 9.2점, MSE 11.8점 감소를 기록하여 희박한 상황에서의 효과성을 입증했다.
밀도가 높은 장면(상하이테크 PartA/B)에서는 YOLO9000 기반 검출 방법보다 SaCNN이 성능이 뛰어나지만, 매우 희박한 스마트시티 데이터셋에서는 YOLO9000가 약간 더 우수한 성능을 보였다.
제거 분석 결과, 다중 컬럼 모델의 성능의 70% 이상을 달성하는 단일 컬럼 아키텍처에 다중 척도 특징 융합을 적용함으로써 높은 효율성과 효과성을 입증했다.
모델은 매우 희박한 장면부터 매우 농도 있는 장면까지 전 범위의 군중 밀도에서 잘 일반화되며, 대부분의 설정에서 검출 기반 및 회귀 기반 최신 기술 방법을 능가했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.