QUICK REVIEW

[논문 리뷰] SynMVCrowd: A Large Synthetic Benchmark for Multi-view Crowd Counting and Localization

Qi Zhang, Daijie Chen|arXiv (Cornell University)|2026. 03. 25.

Video Surveillance and Tracking Methods인용 수 0

한 줄 요약

SynMVCrowd는 다중 뷰 군중 추산 및 위치 파악을 위한 대규모 합성 벤치마크를 도입합니다. 50개 씬, 50대 카메라 뷰, 씬당 200 프레임, 씬당 200–1000명의 사람 구성과 기존 방법을 능가하는 강력한 다중 뷰 베이스라인을 제공합니다.

ABSTRACT

Existing multi-view crowd counting and localization methods are evaluated under relatively small scenes with limited crowd numbers, camera views, and frames. This makes the evaluation and comparison of existing methods impractical, as small datasets are easily overfit by these methods. To avoid these issues, 3DROM proposes a data augmentation method. Instead, in this paper, we propose a large synthetic benchmark, SynMVCrowd, for more practical evaluation and comparison of multi-view crowd counting and localization tasks. The SynMVCrowd benchmark consists of 50 synthetic scenes with a large number of multi-view frames and camera views and a much larger crowd number (up to 1000), which is more suitable for large-scene multi-view crowd vision tasks. Besides, we propose strong multi-view crowd localization and counting baselines that outperform all comparison methods on the new SynMVCrowd benchmark. Moreover, we prove that better domain transferring multi-view and single-image counting performance could be achieved with the aid of the benchmark on novel new real scenes. As a result, the proposed benchmark could advance the research for multi-view and single-image crowd counting and localization to more practical applications. The codes and datasets are here: https://github.com/zqyq/SynMVCrowd.

연구 동기 및 목표

대규모의 크로스-씬 설정에서 다중 뷰 군중 추산/로컬라이제이션의 평가와 비교를 촉진한다.
실제 배치를 위한 과적합 감소 및 일반화 향상을 위해 대규모 합성 벤치마크를 제공한다.
새 벤치마크에서 기존 방법을 능가하는 강력한 다중 뷰 카운팅 및 로컬라이제이션의 베이스라인을 확립한다.
SynMVCrowd를 이용한 새로운 실제 씬으로의 도메인 전이에서 교차 도메인 이점을 탐구한다.

제안 방법

GTA-V 기반 GCC 합성 파이프라인을 확장하여 50개 씬, 50대 카메라 뷰, 씬당 200 프레임을 생성한다.
ROI 기반 군중 배치, 날씨 및 시간 변화를 포함하고, 각 씬을 포괄하는 카메라 배열을 포함한 자세한 씬 구성을 만든다.
다양한 아바타, 무작위이지만 제어된 행동, 그리고 뷰 간 정밀 추적을 위한 고유 ID를 포함하는 캐릭터 설정을 정의한다.
GTA-V 씬의 256명 한계를 초과하기 위해 하위 영역을 점진적으로 채워 합치고 ground-truth 주석이 있는 다중 뷰 프레임을 생성한다.
단일 뷰 특징 추출, 공간 특징 선택, 다중 뷰 특징 투영 및 융합, 다중 뷰 디코딩 모듈을 갖춘 강력한 다중 뷰 베이스라인을 제안하고, 손실로 MSE 또는 최적 운송(Optimal Transport) 손실로 학습한다.
베이스라인을 최신 다중 뷰 방법과 대조하여 평가하고, 교차 씬 일반화 및 단일 이미지 적용 가능성을 분석한다.

실험 결과

연구 질문

RQ1다양한 씬, 카메라 뷰 및 군중 밀도와 함께 하는 대규모 합성 벤치마크가 교차 씬 설정에서 다중 뷰 군중 추산/로컬라이제이션 방법을 더 잘 평가하고 비교할 수 있는가?
RQ2SynMVCrowd에서 학습된 강력한 다중 뷰 베이스라인이 이 벤치마크에서 기존 방법들을 능가하고 새로운 씬으로 일반화되는가?
RQ3SynMVCrowd에서 다중 뷰 군중 로컬라이제이션에 대해 Optimal Transport 손실과 MSE 손실 사용의 영향은 무엇인가?
RQ4SynMVCrowd가 다중 뷰 작업과 함께 단일 이미지 군중 추산/로컬라이제이션의 향상을 촉진할 수 있는가?
RQ5SynMVCrowd가 실제 씬으로의 도메인 전이 평가에 어떤 도움을 주는가?

주요 결과

Method	MODA	MODP	정밀도	재현율	F1_score
MVDet	27.0	52.2	72.2	43.9	54.6
SHOT	32.5	52.6	74.5	49.3	59.3
MVDeTr	35.6	69.7	95.4	37.4	53.7
3DROM	24.2	59.2	86.1	28.8	43.2
SVCW	35.8	55.6	75.8	51.7	61.4
MVOT	45.5	66.3	83.4	56.9	67.6
TrackTacular	45.8	71.1	92.6	49.8	64.8
Baseline (MSE)	34.6	74.5	92.9	37.4	53.4
Baseline (OT)	49.6	70.2	88.6	57.0	69.4

SynMVCrowd는 다중 뷰 및 단일 이미지 군중 추산/로컬라이제이션을 위한 최대 규모의 합성 벤치마크로, 50개 씬, 50대 카메라 뷜, 씬당 200 프레임, 씬당 200–1000명의 사람들이 있다.
제안된 Baseline (OT)은 MODA, MODP, Precision, Recall, F1_score에서 SynMVCrowd에 대해 나열된 모든 베이스라인 및 SOTA 다중 뷰 로컬라이제이션 방법을 능가한다.
SHOT, MVDeTr, MVOT와 같은 일부 기존 방법은 특정 지표에서 강점을 보이지만(예: 다중 높이 융합, 변형 가능한 융합, 점-감독), 전반적으로 Baseline (OT)이 SynMVCrowd에서 로컬라이제이션 지표의 가장 균형 잡힌 성능을 달성한다.
SynMVCrowd는 일반화 향상과 새로운 실제 씬으로의 교차 씬 도메인 전이에서 잠재적 이점을 보여주며, 실제 배치 및 교차 도메인 연구에 실용적 가치를 시사한다.
이 데이터셋은 다중 뷰와 단일 이미지 작업 모두를 지원하여 교차 도메인 성능 및 전이 가능성 평가를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.