QUICK REVIEW

[논문 리뷰] Benchmark data and method for real-time people counting in cluttered scenes using depth sensors

Shijie Sun, Naveed Akhtar|arXiv (Cornell University)|2018. 04. 12.

Video Surveillance and Tracking Methods참고 문헌 7인용 수 19

한 줄 요약

이 논문은 실제 복잡한 환경에서 사람들이 버스에 들어오고 나가는 상황을 촬영한 대규모 공개 RGB-D 데이터셋 PCDS를 소개하며, 깊이 영상을 이용한 실시간 사람 수 세는 방법을 제안한다. 이 방법은 3D 포인트 클라우드를 계산하고, 이를 지면에 정규화된 높이 영상으로 재투영하며, 3D 인간 모델을 사용해 인간의 머리 제안을 검출하고 정제하고, 궤적을 추적한 후 퇴장 궤적을 집계하여 사람 수를 세며, 1.7 GHz 프로세서에서 45 fps로 높은 정확도를 달성한다.

ABSTRACT

Vision-based automatic counting of people has widespread applications in intelligent transportation systems, security, and logistics. However, there is currently no large-scale public dataset for benchmarking approaches on this problem. This work fills this gap by introducing the first real-world RGB-D People Counting DataSet (PCDS) containing over 4,500 videos recorded at the entrance doors of buses in normal and cluttered conditions. It also proposes an efficient method for counting people in real-world cluttered scenes related to public transportations using depth videos. The proposed method computes a point cloud from the depth video frame and re-projects it onto the ground plane to normalize the depth information. The resulting depth image is analyzed for identifying potential human heads. The human head proposals are meticulously refined using a 3D human model. The proposals in each frame of the continuous video stream are tracked to trace their trajectories. The trajectories are again refined to ascertain reliable counting. People are eventually counted by accumulating the head trajectories leaving the scene. To enable effective head and trajectory identification, we also propose two different compound features. A thorough evaluation on PCDS demonstrates that our technique is able to count people in cluttered scenes with high accuracy at 45 fps on a 1.7 GHz processor, and hence it can be deployed for effective real-time people counting for intelligent transportation systems.

연구 동기 및 목표

깊이 센서를 사용한 실시간 사람 수 세기의 벤치마크를 위한 대규모 공개 데이터셋 부족 문제를 해결하기 위해.
복잡한 실제 환경(예: 대중교통 입구)에서 효율적이고 실시간 사람 수 세기 방법을 개발하기 위해.
실제 깊이 영상 데이터에서 흔히 발생하는 가림, 혼잡, 조명 변화, 깊이 노이즈 등의 영향을 최소화하여 정확도를 향상시키기 위해.
3D 포인트 클라우드 재투영, 3D 인간 모델 기반 머리 검출, 궤적 기반 세기 방식을 융합하여 신뢰할 수 있는 세기 성능을 확보하기 위해.
RGB-D 기반 사람 수 세기 분야의 연구를 가속화하기 위해 공개 가능한 벤치마크 데이터셋(PCDS)을 제공하기 위해.

제안 방법

메서드는 먼저 정적 배경을 제거하여 전경 운동을 분리한다.
깊이 프레임에서 3D 포인트 클라우드를 구성하고, 이를 지면에 수직으로 재투영하여 분할 성능을 향상시키기 위해 정규화된 높이 영상을 생성한다.
깊이 기반 머리 검출을 위해 설계된 복합 특징을 사용해 높이 영상에서 잠재적인 인간 머리 위치를 검출한다.
가능한 인간 머리 위치와 크기를 시뮬레이션함으로써 3D 인간 모델을 사용해 머리 제안을 정제하여 검출 신뢰도를 향상시킨다.
기하학적 일관성과 복합 특징을 기반으로 운동 경로를 분류하고 정제하는 추적 알고리즘을 사용해 연속 프레임 간 머리 궤적을 추적한다.
영상에서 퇴장하는 궤적을 누적하여 사람 수를 세며, 최종 수는 완전한 퇴장 궤적의 수로 유도한다.

실험 결과

연구 질문

RQ1실제 조명 변화, 가림, 노이즈 등 다양한 요건을 반영한 실제 복잡한 환경에서 사람 수 세기의 벤치마크를 위한 대규모 실생활 RGB-D 데이터셋을 구축할 수 있는가?
RQ2저비용 하드웨어에서 실시간 성능(≥30 fps)을 확보하면서도 복잡한 환경에서 높은 정확도를 유지는 깊이 기반 방법이 가능한가?
RQ3지면에 3D 포인트 클라우드를 재투영하는 방식이 깊이 영상에서 머리 검출 및 분할 성능 향상에 얼마나 효과적인가?
RQ43D 인간 모델을 통합해 머리 제안을 정제함으로써 복잡한 환경에서 거짓 경고를 줄이는 데 얼마나 기여하는가?
RQ5정제된 머리 검출 기반 궤적 기반 세기 방식이 부분적인 가림과 대기열 효과가 존재하는 상황에서도 높은 정확도를 달성할 수 있는가?

주요 결과

제안된 방법은 2GB RAM이 있는 1.7 GHz 프로세서에서 약 45 프레임/초의 실시간 성능을 달성하여 차량 내장형 배치에 적합하다.
PCDS 데이터셋에서 버스에서 퇴장하는 사람에 대해 91.30%의 검출률, 입구에 들어오는 사람에 대해 75.32%의 검출률을 기록하여 실제 환경 조건에서도 뛰어난 성능을 입증했다.
퇴장 궤적에 대해 추적 성분은 정밀도 0.98, 재현율 0.97, F1 점수 0.98을 기록하여 궤적 분류의 높은 신뢰도를 보였다.
높이 영상에서 복합 특징을 사용함으로써 머리 검출 정확도가 크게 향상되었으며, ROC 곡선 분석 결과 입구 및 퇴장 시나리오 모두 AUC 값이 0.95 이상으로 확인되었다.
PCDS 데이터셋은 다양한 조명, 가림, 노이즈 조건을 포함한 총 4,689개의 영상로 구성되어 있어 향후 연구를 위한 도전적이고 현실적인 벤치마크로 기능한다.
프레임당 평균 계산 시간은 22.1ms로, 저자원 임베디드 시스템에 실시간 배치의 가능성을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.