QUICK REVIEW

[논문 리뷰] People Counting in High Density Crowds from Still Images

Ankan Bansal, K. S. Venkatesh|arXiv (Cornell University)|2015. 07. 30.

Video Surveillance and Tracking Methods참고 문헌 14인용 수 24

한 줄 요약

이 논문은 SIFT 특징, 푸리에 분석, 웨이블릿 분해, GLCM 특징 및 저신뢰도 헤드 검출을 사용하여 고밀도 정적 이미지에서 인파 수를 추정하기 위한 다중 소스 융합 접근법을 제안한다. 1장의 이미지에 최대 4,633명까지 포함된 100장의 이미지 데이터셋에서 평균 절대 오차(MAE)는 377.7 ± 480.8, 평균 정규화된 절대 오차(NAE)는 0.666 ± 1.123을 기록하며, 단일 특징 기반 방법이 실패하는 극한의 밀도 상황에서도 강건성을 입증한다.

ABSTRACT

We present a method of estimating the number of people in high density crowds from still images. The method estimates counts by fusing information from multiple sources. Most of the existing work on crowd counting deals with very small crowds (tens of individuals) and use temporal information from videos. Our method uses only still images to estimate the counts in high density images (hundreds to thousands of individuals). At this scale, we cannot rely on only one set of features for count estimation. We, therefore, use multiple sources, viz. interest points (SIFT), Fourier analysis, wavelet decomposition, GLCM features and low confidence head detections, to estimate the counts. Each of these sources gives a separate estimate of the count along with confidences and other statistical measures which are then combined to obtain the final estimate. We test our method on an existing dataset of fifty images containing over 64000 individuals. Further, we added another fifty annotated images of crowds and tested on the complete dataset of hundred images containing over 87000 individuals. The counts per image range from 81 to 4633. We report the performance in terms of mean absolute error, which is a measure of accuracy of the method, and mean normalised absolute error, which is a measure of the robustness.

연구 동기 및 목표

기존 방법들이 가림과 시점 효과로 인해 실패하는 극도로 밀도가 높은 인파에서 정적 이미지로부터 사람 수를 세는 데 효과적인 방법의 부족을 해결한다.
단일 특징 기반 방법의 한계를 극복하기 위해 상호보완적인 정보 소스를 융합하여 정확성과 강건성을 향상시킨다.
PILGRIMAGE SITES 및 혼잡사고 위험 지역과 같은 중요한 응용 분야에 실시간 적용 가능한 확장 가능한 시스템을 개발한다.
기존 UCF 인파 수 세기 데이터셋에 50장의 새로운 주석이 부여된 이미지를 추가하여 고밀도 인파 수 세기의 더 큰 벤치마크를 구축한다.
텍스처 기반 분석과 관심점 및 헤드 검출을 조합한 방법이 극한의 밀도 조건에서 단일 방법 기반 접근법보다 우수한 성능을 보임을 입증한다.

제안 방법

SIFT 기술자, 푸리에 분석, 웨이블릿 분해, GLCM 특징 및 저신뢰도 헤드 검출과 같은 다수의 독립된 특징을 융합하여 인파 수를 추정한다.
각 특징 소스는 별도의 추정치와 관련된 신뢰도 및 통계적 측정치를 제공하여 융합에 활용된다.
다양한 소스의 추정치를 융합하기 위해 가중치 기반 전략을 사용하여 최종적인 강건한 수치 예측을 도출한다.
각 패치 및 각 이미지 평가를 적용하여 다양한 밀도 및 이미지 복잡성에서의 성능을 평가한다.
정확성과 강건성을 평가하기 위해 주로 정규화된 절대 오차(NAE)와 평균 절대 오차(MAE)를 사용한다.
100장의 주석이 부여된 고밀도 인파 이미지로 구성된 새로운 데이터셋을 도입한다.

실험 결과

연구 질문

RQ1정적 이미지에서 고밀도 인파 수 세기에서 다중 소스 융합 프레임워크가 단일 특징 기반 방법보다 우수한 성능을 보일 수 있는가?
RQ2극한의 밀도 상황에서 텍스처 기반 특징(Fourier, wavelet, GLCM)과 검출 기반 특징의 성능은 어떻게 비교되는가?
RQ3시점 왜곡과 렌즈 효과가 인파 수 세기 모델의 정확도를 어느 정도 악화시키는가?
RQ4저신뢰도 헤드 검출의 포함이 개별 검출이 실패하는 고밀도 영역에서 추정 성능을 향상시키는가?
RQ5모델은 저밀도에서 극도로 높은 밀도(1장의 이미지당 최대 4,633명)에 이르기까지 광범위한 인파 밀도 범위에서 어떻게 성능을 발휘하는가?

주요 결과

제안된 방법은 100장의 이미지로 구성된 전체 데이터셋에서 평균 절대 오차(MAE) 377.7 ± 480.8과 평균 정규화된 절대 오차(NAE) 0.666 ± 1.123을 기록한다.
Rodriguez 등 [25]과 Lempitsky 등 [3]의 방법보다 우수한 성능을 보였지만, Idrees 등 [14]의 더 계산 비용이 큰 모델에선 열등한 성능을 보였다.
오차가 가장 높은 상위 10%의 이미지를 제외한 경우, MAE는 256.3 ± 217.7로 감소하고 NAE는 0.407 ± 0.328로 떨어지며 대부분의 이미지에서 뛰어난 성능을 보임을 시사한다.
높은 절대 오차는 주로 2,000명 이상의 인원이 포함된 매우 높은 밀도의 이미지에서 극단적인 시점 왜곡과 렌즈 왜곡으로 인해 발생한다.
텍스처 기반 방법(웨이블릿 및 GLCM 특징 포함)은 밀도가 낮은 영역(500명 이하)에서는 제한적인 효과를 보이며, 이 경우 헤드 검출 및 관심점이 더 우수한 성능을 보인다.
2,000명 미만의 인원이 포함된 이미지에서는 패치 단위 오차가 낮고 안정적이지만, 밀도가 높아지면 급격히 증가하여 극한의 밀도에서 성능의 한계가 있음을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.