[논문 리뷰] Crowd Counting with Deep Structured Scale Integration Network
DSSINet은 다중 스케일 군중 특징을 상호 보완적으로 정제하는 CRF 기반의 구조화된 특징 향상 모듈과 지역 스케일 일관성을 강화하는 Dilated 다중 스케일 구조적 유사성 손실을 도입하여 여러 벤치마크에서 최첨단 결과를 달성한다.
Automatic estimation of the number of people in unconstrained crowded scenes is a challenging task and one major difficulty stems from the huge scale variation of people. In this paper, we propose a novel Deep Structured Scale Integration Network (DSSINet) for crowd counting, which addresses the scale variation of people by using structured feature representation learning and hierarchically structured loss function optimization. Unlike conventional methods which directly fuse multiple features with weighted average or concatenation, we first introduce a Structured Feature Enhancement Module based on conditional random fields (CRFs) to refine multiscale features mutually with a message passing mechanism. In this module, each scale-specific feature is considered as a continuous random variable and passes complementary information to refine the features at other scales. Second, we utilize a Dilated Multiscale Structural Similarity loss to enforce our DSSINet to learn the local correlation of people's scales within regions of various size, thus yielding high-quality density maps. Extensive experiments on four challenging benchmarks well demonstrate the effectiveness of our method. Specifically, our DSSINet achieves improvements of 9.5% error reduction on Shanghaitech dataset and 24.9% on UCF-QNRF dataset against the state-of-the-art methods.
연구 동기 및 목표
- 밀집한 현장의 극단적 규모 변화에 robust한 다중 스케일 특징 표현 학습으로 대응한다.
- CRF 기반 특징 정제 메커니즘을 통해 스케일 간 구조적 정보 공유를 활용한다.
- 확대된 MS-SSIM 설계를 사용해 다양한 크기의 영역 간 지역 스케일 상관성을 포착하는 손실을 부과한다.
- 공유 파라미터 하위 네트워크로의 측면 출력의 상향식 융합을 통해 고품질 밀도 맵을 생성한다.
제안 방법
- 동일 이미지의 서로 다른 스케일 버전을 처리하는 공유 매개변수를 가진 세 개의 병렬 하위 네트워크를 사용한다.
- 메시지 전달 체계를 통해 다중 스케일 특징을 상호 정제하는 조건부 무작위장(CRF) 기반 구조화된 특징 향상 모듈(SFEM)을 도입한다.
- 정제된 특징에서 여러 측면 출력 밀도 맵을 생성하고 상향식으로 융합하여 고해상도 밀도 맵을 얻는다.
- 고정된 가우시안 커널과 확장된 컨볼루션으로 구현된 Dilated Multiscale Structural Similarity(DMS-SSIM) 손실을 제안하여 다양한 크기의 영역에서 SSIM을 측정한다.
- 지역 스케일 상관성 및 스케일 간 밀도 맵 일관성을 강제하기 위해 DMS-SSIM 손실로 최적화한다.
실험 결과
연구 질문
- RQ1다중 스케일 특징을 어떻게 정제하여 극단적인 스케일 변화가 많은 군중 현상을 더 잘 처리할 수 있는가?
- RQ2스케일 특화 특징 간의 CRF 기반 상호 정제가 스케일 변화에 대한 강건성을 향상시킬 수 있는가?
- RQ3확장된 MS-SSIM 손실이 군중 counting에서 전통적인 손실보다 지역 스케일 상관성을 더 잘 포착하는가?
- RQ4제안된 DSSINet 아키텍처의 표준 군중 카운팅 벤치마크에서의 효과성과 효율성은 어떠한가?
주요 결과
| 데이터셋/시나리오 | MAE | MSE |
|---|---|---|
| Shanghaitech Part A (Ours) | 60.63 | 96.04 |
| Shanghaitech Part B (Ours) | 6.85 | 10.34 |
| UCF-QNRF (Ours) | 99.1 | 159.2 |
| UCF_CC_50 (Ours) | 216.9 | 302.4 |
| WorldExpo’10 Ave (Ours) | 6.67 | 6.67 |
- DSSINet은 여러 벤치마크에서 최첨단 성능을 달성하며, 특히 Shanghaitech Part A에서의 MAE 9.5% 감소와 UCF-QNRF에서의 MAE 24.9% 감소가 이전 방법 대비 우수한 것으로 보고된다(논문에서 상대 수치).
- SFEM(CRF 기반 특징 정제)은 간단한 융합 전략과 비교하여 다중 스케일 특징의 강건성을 크게 향상시킨다.
- 확장된 확장(확장 매개변수 m=5가 최적으로 제시됨)을 갖는 DMS-SSIM 손실은 MAE/MSE에서 최상의 성능을 보이며 유클리드 및 SSIM 기반 손실보다 우수하다.
- 모델은 약 8.858백만 개의 파라미터를 가지며 1080 GPU에서 720x576 프레임당 약 450 ms를 수행하며, 백본이 파라미터의 다수를 차지하여 성능/복잡도 균형이 우수한 편이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.