QUICK REVIEW

[논문 리뷰] Crowd Counting and Density Estimation by Trellis Encoder-Decoder Network

Xiaolong Jiang, Zehao Xiao|arXiv (Cornell University)|2019. 03. 03.

Video Surveillance and Tracking Methods참고 문헌 49인용 수 78

한 줄 요약

TEDnet은 조밀한 스킵 연결과 조합 손실을 갖춘 트렐리스 스타일의 다경로 인코더-디코더를 제안하여 고품질 밀도 맵과 정확한 군중 수를 생성하고, 여러 벤치마크에서 최첨단 성능을 달성한다.

ABSTRACT

Crowd counting has recently attracted increasing interest in computer vision but remains a challenging problem. In this paper, we propose a trellis encoder-decoder network (TEDnet) for crowd counting, which focuses on generating high-quality density estimation maps. The major contributions are four-fold. First, we develop a new trellis architecture that incorporates multiple decoding paths to hierarchically aggregate features at different encoding stages, which can handle large variations of objects. Second, we design dense skip connections interleaved across paths to facilitate sufficient multi-scale feature fusions and to absorb the supervision information. Third, we propose a new combinatorial loss to enforce local coherence and spatial correlation in density maps. By distributedly imposing this combinatorial loss on intermediate outputs, gradient vanishing can be largely alleviated for better back-propagation and faster convergence. Finally, our TEDnet achieves new state-of-the art performance on four benchmarks, with an improvement up to 14% in terms of MAE.

연구 동기 및 목표

공간 위치 정보를 보존하여 가려짐과 스케일 변동 하에서도 강건한 군중 수 추정을 촉진한다.
의미 정보를 추출하면서 고해상도 위치 정보를 유지하는 네트워크를 개발한다.
다중 경로 융합과 분산 감독을 통해 패치 기반 방법을 넘어선 밀도 맵 품질을 향상시킨다.
새로운 조합 손실을 통해 그래디언트 소실과 맵 일관성을 해결한다.
표준 벤치마크에서 최첨단 개수 추정 정확도와 밀도 맵 품질을 시연한다.

제안 방법

제한된 피다운샘플링으로 스케일-적응 특징을 추출하는 다중 스케일 인코더를 도입한다.
조밀한 스킵 연결을 갖춘 여러 디코딩 경로를 따라 특징을 계층적으로 통합하는 다경로 디코더를 설계한다.
해당 손실을 갖는 중간 밀도 맵 출력들을 추가하여 분산 감독을 적용한다.
밀도 맵의 국소적 일관성과 공간 상관성을 강화하기 위해 Spatial Abstraction Loss (SAL)와 Spatial Correlation Loss (SCL)로 구성된 조합 손실을 제안한다.
위치 정확도를 보존하기 위해 패치가 아닌 전체 해상도 밀도 맵에서 손실을 계산한다.
고정된 가우시안 ground-truth 맵과 온라인 데이터 증강을 사용하는 전체 이미지에서 Adam으로 엔드-투-엔드로 학습한다.

실험 결과

연구 질문

RQ1트렐리스형 다경로 인코더-디코더가 혼잡한 장면에서 픽셀 단위 밀도 추정을 향상시킬 수 있는가?
RQ2밀집한 경로 간 융합이 다중 스케일 특징 집합과 밀도 맵 품질을 향상시키는가?
RQ3분산 감독과 조합 손실이 그래디언트 흐름을 개선하고 그래디언트 소실 문제를 해결하는가?
RQ4이전 방법과 비교했을 때 표준 벤치마크에서 TEDnet의 MAE/MSE 및 밀도 맵 품질(PSNR/SSIM)은 어떠한가?

주요 결과

TEDnet은 네 벤치마크에서 최첨단 성능을 달성하며, 이전 방법 대비 MAE에서 두드러진 개선을 보인다.
밀집 스킵 연결을 갖춘 다경로 디코더가 더 나은 밀도 맵 품질(PSNR/SSIM) 및 군중 수 추정 정확도를 제공한다.
분산 감독은 그래디언트 소실을 줄이고 수렴 속도를 높인다.
조합 손실 SAL/SCL은 밀도 맵의 일관성과 공간 상관성을 향상시켜 카운팅 성능을 더 끌어올린다.
TEDnet은 전체 이미지에서 전체 해상도 밀도 맵을 생성하여 패치 기반 방법의 경계 인공현상을 피한다.
TEDnet은 가벼운 파라미터 규모를 유지하면서도 더 우수한 밀도 맵 품질과 군중 수 추정 정확도를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.