[논문 리뷰] TransCrowd: weakly-supervised crowd counting with transformers
TransCrowd은 약식 지도 학습(weakly-supervised) 인파 수 추정을 위한 순수 Transformer 접근법을 도입하고, 이미지-개수를 시퀀스-대-카운트로 재구성하여 카운트-레벨 방법들 중에서 최첨단 성능을 달성합니다. 또한 두 가지 회귀 헤드를 비교하고, 전역 평균 풀링으로 수렴 속도가 더 빠르다는 것을 보여줍니다.
The mainstream crowd counting methods usually utilize the convolution neural network (CNN) to regress a density map, requiring point-level annotations. However, annotating each person with a point is an expensive and laborious process. During the testing phase, the point-level annotations are not considered to evaluate the counting accuracy, which means the point-level annotations are redundant. Hence, it is desirable to develop weakly-supervised counting methods that just rely on count-level annotations, a more economical way of labeling. Current weakly-supervised counting methods adopt the CNN to regress a total count of the crowd by an image-to-count paradigm. However, having limited receptive fields for context modeling is an intrinsic limitation of these weakly-supervised CNN-based methods. These methods thus cannot achieve satisfactory performance, with limited applications in the real world. The transformer is a popular sequence-to-sequence prediction model in natural language processing (NLP), which contains a global receptive field. In this paper, we propose TransCrowd, which reformulates the weakly-supervised crowd counting problem from the perspective of sequence-to-count based on transformers. We observe that the proposed TransCrowd can effectively extract the semantic crowd information by using the self-attention mechanism of transformer. To the best of our knowledge, this is the first work to adopt a pure transformer for crowd counting research. Experiments on five benchmark datasets demonstrate that the proposed TransCrowd achieves superior performance compared with all the weakly-supervised CNN-based counting methods and gains highly competitive counting performance compared with some popular fully-supervised counting methods.
연구 동기 및 목표
- 포인트-레벨 밀도 지도보다 주석 노력을 줄이기 위해 카운트-레벨(약식) 인파 추정 연구의 필요성을 제시한다.
- 카운트를 위해 장거리 인파 맥락을 포착하기 위해 Transformer의 글로벌 수용 영역을 활용한다.
- 두 가지 Transformer 기반 카운팅 아키텍처(TransCrowd-Token 및 TransCrowd-GAP)를 제안하고 효과를 비교한다.
- 순수 Transformer 모델이 표준 데이터셋에서 완전하게 감독된 CNN 기반 방법과 비교하여 경쟁적이거나 우수한 카운팅 정확도를 달성할 수 있음을 입증한다.
제안 방법
- 입력 이미지를 고정 크기의 패치 시퀀스로 변환하고 위치 정보를 포함하여 임베딩한다.
- 변형 가능한 인코더(12 레이어; 잔차 연결이 있는 다중-헤드 자기 자신 주의)로 패치의 풍부한 글로벌 표현을 얻는다.
- 두 가지 회귀 헤드 설계를 도입한다: TransCrowd-Token은 학습 가능한 회귀 토큰을 사용하고, TransCrowd-GAP은 회귀 전에 시각 토큰의 전역 평균 풀링을 사용한다.
- L1 손실로 각 이미지의 총 인파 수를 예측하도록 학습한다.
- ImageNet에서 사전 학습하고 인파 추정 데이터세트에서 미세 조정한다; 이미지를 재사이즈하고 학습에 표준 데이터 증가를 사용한다.
실험 결과
연구 질문
- RQ1순수 Transformer 기반 네트워크가 카운트-레벨 감독으로 학습되었을 때 포인트-레벨 밀도 감독 없이도 경쟁력 있는 인파 추정 성능을 달성할 수 있는가?
- RQ2회귀 헤드 설계(회귀 토큰 대 글로벌 풀링 토큰)가 카운트 정확도와 수렴 속도에 영향을 주는가?
- RQ3TransCrowd가 표준 벤치마크에서 varying crowd densities 하에서 기존의 약식 학습 방법 및 완전 감독 방법과 어떻게 비교되는가?
- RQ4두 회귀 헤드Variant 간 주의 맵의 질적 차이는 무엇이며, 이것이 카운트 정확도와 어떤 관련이 있는가?
주요 결과
- TransCrowd-GAP이 다수의 데이터셋에서 TransCrowd-Token보다 더 높은 카운트 정확도와 더 빠른 수렴 속도를 달성한다.
- TransCrowd는 기존의 약식 CNN 기반 방법을 크게 능가하고 완전 감독 방법과도 매우 경쟁력이 있다.
- JHU-Crowd++ 테스트 세트에서 TransCrowd-GAP은 CSRNet 대비 MAE와 MSE에서 상당한 차이로 개선되며, 일부 데이터셋에서는 완전 감독 방법을 능가하기도 한다.
- 주의 시각화에서 TransCrowd-GAP이 TransCrowd-Token보다 더 합리적인 주의 맵을 생성하는 경향이 있어 카운트 오차를 줄이는 데 도움이 된다.
- 대형 규모 데이터셋에서 NWPU-Crowd 및 JHU-Crowd++에 대해 Transformer의 글로벌 수용 영역 덕분에 강력한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.