[논문 리뷰] Drone-based Joint Density Map Estimation, Localization and Tracking with Space-Time Multi-Scale Attention Network
이 논문은 드론 촬영 영상에서 밀집된 군중의 밀도 지도 추정, 국소화, 추적을 위한 공간-시간 다중 척도 주의망인 STANet을 제안한다. 다중 척도 특징 집합, 점진적 주의, 종단간 다중 작업 학습을 활용하여 STANet는 세 가지 데이터셋에서 최신 기술 수준의 성능을 달성하였으며, 112개의 고해상도 영상 클립에 걸쳐 총 480만 개의 머리 위치 레이블을 포함한 새로 도입된 대규모 드론 군중 데이터셋을 포함한다.
This paper proposes a space-time multi-scale attention network (STANet) to solve density map estimation, localization and tracking in dense crowds of video clips captured by drones with arbitrary crowd density, perspective, and flight altitude. Our STANet method aggregates multi-scale feature maps in sequential frames to exploit the temporal coherency, and then predict the density maps, localize the targets, and associate them in crowds simultaneously. A coarse-to-fine process is designed to gradually apply the attention module on the aggregated multi-scale feature maps to enforce the network to exploit the discriminative space-time features for better performance. The whole network is trained in an end-to-end manner with the multi-task loss, formed by three terms, i.e., the density map loss, localization loss and association loss. The non-maximal suppression followed by the min-cost flow framework is used to generate the trajectories of targets' in scenarios. Since existing crowd counting datasets merely focus on crowd counting in static cameras rather than density map estimation, counting and tracking in crowds on drones, we have collected a new large-scale drone-based dataset, DroneCrowd, formed by 112 video clips with 33,600 high resolution frames (i.e., 1920x1080) captured in 70 different scenarios. With intensive amount of effort, our dataset provides 20,800 people trajectories with 4.8 million head annotations and several video-level attributes in sequences. Extensive experiments are conducted on two challenging public datasets, i.e., Shanghaitech and UCF-QNRF, and our DroneCrowd, to demonstrate that STANet achieves favorable performance against the state-of-the-arts. The datasets and codes can be found at https://github.com/VisDrone.
연구 동기 및 목표
- 드론 기반 군중 수세기, 국소화, 추적을 위한 대규모 공개 벤치마크의 부족을 해결하기 위해.
- 항공 영상에서 밀집된 군중의 밀도 지도 추정, 개인 국소화, 궤적 추적을 종합적으로 수행할 수 있는 통합 딥러닝 프레임워크를 개발하기 위해.
- 시간적 일관성과 다중 척도 특징을 활용하여 다양한 시점, 척도, 시야 변화와 같은 도전적인 상황에서 성능을 향상시키기 위해.
- 드론 기반 군중 분석 분야에서 가장 큰 규모인 드론 군중 데이터셋을 구축함으로써 종합적인 평가 벤치마크를 제공하기 위해.
제안 방법
- STANet는 드론 촬영 영상의 시간적 일관성을 활용하기 위해 순차적 영상 프레임 간의 다중 척도 특징 맵을 집계한다.
- 집계된 특징에 대해 군집에서 세분으로의 점진적 주의 메커니즘을 적용하여 구분력 있는 공간-시간 표현을 강조한다.
- 밀도 지도 손실, 국소화 손실, 연관 손실을 조합한 다중 작업 손실을 사용하여 종단간 엔드 투 엔드로 학습한다.
- 예측된 국소화 지ap에서 局부 최댓값을 탐지함으로써 비최대 억제(Non-maximal suppression)를 적용하여 머리 포인트를 국소화한다.
- 최소 비용 흐름 알고리즘을 사용하여 프레임 간에 국소화된 머리 포인트를 연결하여 완전한 인체 궤적을 생성한다.
- 70개의 다양한 도시 환경에서 112개의 영상 클립, 33,600 프레임, 480만 개 이상의 머리 위치 레이블을 포함한 새로운 대규모 데이터셋인 드론 군중( DroneCrowd )을 수집하였다.
실험 결과
연구 질문
- RQ1통합 딥러닝 프레임워크가 드론 촬영 영상에서 밀집된 군중의 밀도 지도 추정, 국소화, 추적을 효과적으로 동시에 수행할 수 있는가?
- RQ2다중 척도 특징과 점진적 주의의 통합이 복잡한 항공 군중 상황에서 성능을 어떻게 향상시키는가?
- RQ3시간적 일관성과 다중 작업 학습이 단일 작업 접근 방식에 비해 국소화 및 추적 정확도를 얼마나 향상시키는가?
- RQ4최근 도입된 드론 군중 데이터셋을 포함한 도전적인 벤치마크에서 제안된 STANet 모델은 최신 기술 수준의 방법들과 비교해 어떻게 성능을 내는가?
- RQ5각 구성 요소(예: 국소화 헤드, 연관 헤드, 다중 척도 모듈)가 종합 군중 분석 성능에 기여하는 정도는 어떠한가?
주요 결과
- UCF-QNRF 데이터셋에서 STANet는 평균 절대 오차(MAE) 16.8을 기록하여 이전 최고 성능 방법들을 능가하였다.
- 절단 실험 결과 국소화 헤드를 제거할 경우 MAE가 1.1 증가하여, 밀도 추정에서 이 헤드의 핵심적 역할을 확인하였다.
- 다중 척도 특징 모듈을 제거할 경우 MAE는 17.9에서 26.3로 증가하여, 이 모듈이 성능에 미치는 중대한 영향을 입증하였다.
- 국소화에서는 STANet가 L-mAP 28.43%를 달성하여 두 번째로 우수한 방법(CSRNet)보다 14.03% 포인트 높았다.
- 군중 추적에서는 STANet가 T-mAP 23.76%를 기록하여 두 번째로 뛰어난 방법(CSRNet-T)보다 14.08% 포인트 높았다.
- 절단 실험 결과 연관 헤드가 궤적 복구에 기여하며, STANet-T(w/o ass)는 T-mAP 22.76%를 기록하여 전체 모델에 비해 略적으로 낮은 성능을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.