[논문 리뷰] Dense Scale Network for Crowd Counting
이 논문은 밀도 있는 확장 컨볼루션 블록을 사용하여 넓고 연속적인 스케일 범위를 포괄하는 밀도 있는 스케일 단일 컬럼 CNN인 DSNet을 제안한다. 특히 적절하게 선택된 확장률을 가진 밀도 있는 연결된 확장 컨볼루션 블록을 사용하여 다양한 스케일을 포착한다. 세 개의 이러한 블록을 밀도 있는 잔차 연결로 스택하고 다중 스케일 밀도 수준 일관성 손실을 도입함으로써 DSNet은 최신 기술 수준의 성능을 달성하여 UCF-QNRF 및 UCF_CC_50에서 최대 30%의 MAE 감소와 ShanghaiTech 및 UCSD에서 20%의 MAE 감소를 이룬다.
Crowd counting has been widely studied by computer vision community in recent years. Due to the large scale variation, it remains to be a challenging task. Previous methods adopt either multi-column CNN or single-column CNN with multiple branches to deal with this problem. However, restricted by the number of columns or branches, these methods can only capture a few different scales and have limited capability. In this paper, we propose a simple but effective network called DSNet for crowd counting, which can be easily trained in an end-to-end fashion. The key component of our network is the dense dilated convolution block, in which each dilation layer is densely connected with the others to preserve information from continuously varied scales. The dilation rates in dilation layers are carefully selected to prevent the block from gridding artifacts. To further enlarge the range of scales covered by the network, we cascade three blocks and link them with dense residual connections. We also introduce a novel multi-scale density level consistency loss for performance improvement. To evaluate our method, we compare it with state-of-the-art algorithms on four crowd counting datasets (ShanghaiTech, UCF-QNRF, UCF_CC_50 and UCSD). Experimental results demonstrate that DSNet can achieve the best performance and make significant improvements on all the four datasets (30% on the UCF-QNRF and UCF_CC_50, and 20% on the others).
연구 동기 및 목표
- 이미지 내 사람의 크기와 밀도가 크게 변하는 대규모 변동성을 다루는 데 어려움이 있는 인파 계수 문제를 해결한다.
- 기존의 다중 컬럼 또는 다중 브랜치 네트워크가 제한된 수의 이산 스케일만 포착할 수 있는 한계를 극복한다.
- 수신 필드 전역에서 밀도 있고 연속적인 스케일 샘플링을 가능하게 하여 흩어진 인파와 농도 높은 인파 시나리오 모두에 대한 특징 표현을 향상시킨다.
- 예측된 밀도 맵과 진짜 밀도 맵 간의 다중 스케일에서의 밀도 수준 일관성을 강제하는 새로운 손실 함수를 도입함으로써 모델 일반화 능력을 향상시킨다.
- 복잡한 다중 브랜치 설계보다 우수한 성능을 보이는 단순한 단일 컬럼 아키텍처를 사용하여 표준 기준 벤치마크에서 엔드 투 엔드 학습을 달성한다.
제안 방법
- 적절하게 선택된 확장률을 가진 다수의 확장 컨볼루션을 밀도 있게 연결하여 다중 스케일 특징을 유지하고 격자 무늬 아티팩트를 방지하는 밀도 있는 확장 컨볼루션 블록(DDCB)을 제안한다.
- 세 개의 DDCB를 스택하고 밀도 있는 잔차 연결로 연결하여 효율적인 수신 필드를 점진적으로 확장하고 스케일 다양성을 향상시킨다.
- 다양한 스케일 수준(예: 1×1, 2×2, 4×4 풀링 출력)에서 예측된 밀도 맵과 진짜 밀도 맵 간의 전역적이고 국소적인 일관성을 강제하는 다중 스케일 밀도 수준 일관성 손실($L_c$)을 도입한다.
- 표준 유클리드 손실과 제안된 $L_c$ 손실의 조합을 사용하여 전체 네트워크를 엔드 투 엔드로 학습시키며, 이는 스케일 간 특징 정렬을 향상시킨다.
- 백본으로 VGG-16을 사용하고, DDCB 블록과 잔차 연결을 점진적으로 추가하여 각 구성 요소의 기여도를 분석한다.
- 다양한 스케일 수준에서 평균 풀링을 적용하여 밀도 수준 표현을 추출하고 일관성 손실 계산에 활용함으로써 전역 및 국소적 구조 일치를 보장한다.
실험 결과
연구 질문
- RQ1밀도 있게 연결된 확장 컨볼루션을 갖춘 단일 컬럼 CNN이 인파 계수에서 넓고 연속적인 스케일 범위를 효과적으로 포착할 수 있는가?
- RQ2DDCB 블록 간의 밀도 있는 잔차 연결이 표준 잔차 연결보다 스케일 다양성과 특징 재사용을 더욱 향상시키는가?
- RQ3다중 스케일 밀도 수준 일관성 손실이 다양한 공간 스케일에서의 구조적 및 강도 일관성을 강제하여 예측된 밀도 맵의 품질을 향상시킬 수 있는가?
- RQ4제안된 손실 함수는 특히 극단적인 스케일 변동이 있는 데이터셋에서 오차를 얼마나 줄이는가?
- RQ5DSNet은 다양한 인파 계수 벤치마크에서 MAE 및 MSE 측정치에서 최신 기술 수준의 방법들과 비교해 어떻게 성능을 냈는가?
주요 결과
- ShanghaiTech Part_B 데이터셋에서 DSNet은 6.74의 최저 MAE를 기록하여 이전 최신 기술 수준 방법들보다 뚜렷한 우월성을 보였다.
- UCF-QNRF 및 UCF_CC_50 데이터셋에서 DSNet은 기존 방법 대비 약 30%의 MAE 감소를 이룩하여 매우 붐비는 장면에서 뛰어난 성능을 보였다.
- 절단 분석 결과, DDCB 블록을 추가하기만 해도 MAE가 15.21에서 7.33으로 감소하여 향상된 스케일 모델링의 효과를 입증했다.
- 밀도 있는 잔차 연결을 추가함으로써 MAE는 7.06에서 6.74로 추가로 감소하여 블록 간 다중 스케일 특징 집합의 효과를 입증했다.
- 다중 스케일 일관성 손실($L_c$)은 마지막에 추가했을 때 MAE를 7.06에서 6.74로 감소시켜 각 스케일 수준(1×1, 2×2, 4×4)에서 점진적인 향상 기여를 하였다.
- 모든 구성 요소를 포함한 전체 모델은 MAE 및 MSE 측정치에서 모두 네 가지 기준 데이터셋—ShanghaiTech, UCF-QNRF, UCF_CC_50, UCSD—에서 최신 기술 수준의 성능을 달성했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.