[논문 리뷰] Crowd Counting by Adaptively Fusing Predictions from an Image Pyramid
이 논문은 다중 스케일의 밀도 예측을 Across-scale 주의 맵과 1x1 융합으로 적응적으로 융합하는 이미지 피라미드 기반 군중 추정 방법을 제안하여 빠르고 거의 실시간 수준의 성능과 강한 정확도를 달성합니다.
Because of the powerful learning capability of deep neural networks, counting performance via density map estimation has improved significantly during the past several years. However, it is still very challenging due to severe occlusion, large scale variations, and perspective distortion. Scale variations (from image to image) coupled with perspective distortion (within one image) result in huge scale changes of the object size. Earlier methods based on convolutional neural networks (CNN) typically did not handle this scale variation explicitly, until Hydra-CNN and MCNN. MCNN uses three columns, each with different filter sizes, to extract features at different scales. In this paper, in contrast to using filters of different sizes, we utilize an image pyramid to deal with scale variations. It is more effective and efficient to resize the input fed into the network, as compared to using larger filter sizes. Secondly, we adaptively fuse the predictions from different scales (using adaptively changing per-pixel weights), which makes our method adapt to scale changes within an image. The adaptive fusing is achieved by generating an across-scale attention map, which softly selects a suitable scale for each pixel, followed by a 1x1 convolution. Extensive experiments on three popular datasets show very compelling results.
연구 동기 및 목표
- 단일 이미지 내의 큰 내부 스케일 변화 및 원근 왜곡 문제에 대응한다.
- 스케일별 밀도 맵을 생성하는 이미지 피라미드 기반 FCN 백본을 제안한다.
- 픽셀별로 적절한 스케일을 선택하기 위한 Across-scale 주의 맵을 이용한 적응적 융합 메커니즘을 개발한다.
- 실시간 혹은 실시간보다 빠른 추론을 제공하는 최첨단 또는 경쟁력 있는 성능을 시연한다.
- ShanghaiTech, WorldExpo, UCSD 데이터셋에서 효과를 검증한다.
제안 방법
- 입력 이미지를 여러 스케일로 다운샘플링하여 이미지 피라미드를 구성한다.
- 각 스케일을 공유하는 백본 FCN으로 처리하여 밀도 맵을 생성한다.
- 스케일별 분기(branch)의 마지막 피처 맵에서 Across-scale 주의 맵을 생성한다.
- Across-scale 소프트맥스를 적용하여 픽셀 단위의 스케일 가중치를 얻고 해당 밀도 맵과 곱한다.
- 모든 스케일의 정규화된 밀도 맵을 1x1 합성(convolution)으로 융합하여 최종 밀도 맵을 얻는다.
- 128x128 입력에서 32x32 밀도 패치에 대한 픽셀 단위 MSE 손실로 엔드-투-엔드 학습한다.
실험 결과
연구 질문
- RQ1단일 이미지 내에서 객체 크기 및 원근에 따른 varying 한 차원의 조건에서도 픽셀 단위의 adaptive 스케일 융합으로 군중 추정이 개선될 수 있는가?
- RQ2주의 기반 융합이 다중 스케일 밀도 맵에 대해 고정된 또는 간단한 융합 전략보다 우수한가?
- RQ3제한된 다운샘플링을 가진 제안된 FCN 백본이 밀도 맵의 질과 런타임에 어떤 영향을 주는가?
- RQ4표준 데이터셋에서 제3자 다중 스케일 추정 방법들과 비교했을 때 성능은 어떨까?
주요 결과
- 적응형 이미지 피라미드 융합이 ShanghaiTech Part A/B, WorldExpo, UCSD에서 단일 스케일 FCN 기본선보다 개선되었습니다.
- FCN-7c-3s(3-스케일 융합)가 ShanghaiTech Part A에서 MAE 80.6, RMSE 126.7, Part B에서 MAE 10.2, RMSE 18.3을 달성합니다.
- 2스케일을 사용하는 우리의 방법(FCN-7c-2s)은 Part A에서 MAE 81.3, RMSE 132.6, Part B에서 MAE 10.9, RMSE 19.1을 달성합니다.
- CNN-patch, MCNN, Switch-CNN, CP-CNN과 비교할 때 우리의 FCN-7c-3s는 경쟁력 있는 MAE/MSE를 가지며 고해상도 이미지에서 실시간보다 빠른 추론을 제공합니다.
- 주의 기반 융합(Across-scale 소프트맥스)은 결정적으로 중요하며, 소프트맥스 없이 또는 고정 융합일 때는 성능이 떨어집니다.
- 구성에 따라 158-439fps로 실행되어 속도-정확도 균형이 유리합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.