[논문 리뷰] $CrowdDiff$: Multi-hypothesis Crowd Density Estimation using Diffusion Models
CrowdDiff는 군중 밀도 맵 생성을 조건부 노이즈 제거 확산 프로세스로 처리하여 고충실도, 좁은 커널 밀도 맵을 생성하고 개선된 카운트를 위해 다중 실현 융합을 활용한다.
Crowd counting is a fundamental problem in crowd analysis which is typically accomplished by estimating a crowd density map and summing over the density values. However, this approach suffers from background noise accumulation and loss of density due to the use of broad Gaussian kernels to create the ground truth density maps. This issue can be overcome by narrowing the Gaussian kernel. However, existing approaches perform poorly when trained with ground truth density maps with broad kernels. To deal with this limitation, we propose using conditional diffusion models to predict density maps, as diffusion models show high fidelity to training data during generation. With that, we present $CrowdDiff$ that generates the crowd density map as a reverse diffusion process. Furthermore, as the intermediate time steps of the diffusion process are noisy, we incorporate a regression branch for direct crowd estimation only during training to improve the feature learning. In addition, owing to the stochastic nature of the diffusion model, we introduce producing multiple density maps to improve the counting performance contrary to the existing crowd counting pipelines. We conduct extensive experiments on publicly available datasets to validate the effectiveness of our method. $CrowdDiff$ outperforms existing state-of-the-art crowd counting methods on several public crowd analysis benchmarks with significant improvements.
연구 동기 및 목표
- 밀도 맵으로 군중 카운트의 동기를 부여하지만, 좁은 가우시안 커널을 사용하여 배경 노이즈 및 커널 손실을 완화한다.
- 밀도 맵을 생성하고 인구 분포를 더 충실하게 학습하기 위한 조건부 확산 모델 프레임워크를 제안한다.
- 좁은 커널 밀도 맵의 임계화와 다중 확산 실현 간 융합 전략을 통해 카운트를 도입한다.
- 카운팅을 향상시키기 위해 훈련 중 보조 회귀 분기를 도입한다.
- 여러 공개 군중 카운팅 데이터셋에서 최첨단 성능을 입증한다.
제안 방법
- 입력 이미지에 조건부 denoising diffusion 프로세스로 밀도 맵 생성을 수식화한다.
- 배경 간섭을 줄이고 ground-truth 밀도 맵을 생성하기 위해 좁은 가우시안 커널(3x3, sigma=0.5)을 채택한다.
- 노이즈 예측과 카운팅 손실을 결합한 하이브리드 손실로 denoising U-Net을 학습한다.
- encoder-Decoder 특징에서 카운트를 회귀하는 훈련 중 카운팅 분기를 포함한다.
- 확률적 확산을 통해 여러 밀도 맵 실현을 생성하고 이를 융합하여 카운트를 개선한다( crowd map fusion ).
- 융합 중 밀도 맵을 임계화하여 점 맵을 얻은 다음 SSIM 가이드의 거부 반지 메커니즘으로 중복 카운트를 피하기 위해 실현을 결합한다.

실험 결과
연구 질문
- RQ1조건부 확산 모델이 배경 노이즈를 완화하면서 군중 이미지에 대해 고충실도 밀도 맵을 생성할 수 있는가?
- RQ2좁은 커널을 사용하는 것이 넓은 커널 기준 ground truth보다 밀도 맵의 충실도와 카운트 정확성을 향상시키는가?
- RQ3확산 모델의 다중 가설 실현을 융합하여 단일 실현보다 더 나은 카운트 성능을 낼 수 있는가?
- RQ4훈련 중 보조 회귀 감독이 확산 기반 군중 카운팅에서 특징 학습을 향상시키는가?
- RQ5CrowdDiff는 벤치마크에서 최첨단 방법에 비해 표준 군중 카운팅에서 어떤 성능을 보이는가?
주요 결과
| 방법 | JHU-Crowd++ MAE | JHU-Crowd++ MSE | ShanghaiTech A MAE | ShanghaiTech A MSE | ShanghaiTech B MAE | ShanghaiTech B MSE | UCF-CC-50 MAE | UCF-CC-50 MSE | UCF-QNRF MAE | UCF-QNRF MSE | NWPU-Crowd MAE | NWPU-Crowd MSE |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| CrowdDiff | 47.3 | 198.9 | 47.4 | 75.0 | 5.7 | 8.2 | 160.8 | 225.0 | 68.9 | 125.6 | 57.8 | 221.2 |
- CrowdDiff는 여러 공개 데이터셋에서 최첨단 성능을 달성했다(예: JHU-Crowd++, ShanghaiTech, UCF-QNRF, NWPU-Crowd).
- 좁은 커널은 혼잡한 영역에서 밀도 맵의 밀도를 더 잘 보존하고 넓은 커널에 비해 정보 손실을 줄인다.
- 밀도 맵에 대한 임계 기반 카운팅(픽셀 합산이 아닌)은 배경 노이즈를 줄이고 견고함을 향상시킨다.
- 다중 실현 융합( crowd map fusion)은 확산의 확률적 특성을 활용하여 카운트를 개선하고 단일 실현 기준선을 능가한다.
- 중간 확산 특징으로 학습된 카운팅 분기는 카운팅 성능을 향상시키고 실현 간 변동성을 감소시킨다.
- 데이터셋 전체에서 CrowdDiff는 밀집한 군중과 희소한 군중 상황 모두에서 강력한 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.