Skip to main content
QUICK REVIEW

[논문 리뷰] CCTrans: Simplifying and Improving Crowd Counting with Transformer

Ye Tian, Xiangxiang Chu|arXiv (Cornell University)|2021. 09. 29.
Video Surveillance and Tracking Methods참고 문헌 48인용 수 64
한 줄 요약

CCTrans는 pyramid vision transformer 백본과 pyramid feature aggregation 및 경량 다중-스케일 확장 회귀 헤드를 사용하여 완전 지도 및 약한 지도 설정 모두에서 최첨단 군중 추정 성능을 달성합니다. NWPU-Crowd에서 No.1을 차지하고 여러 벤치마크에서 이전 방법들을 능가합니다.

ABSTRACT

Most recent methods used for crowd counting are based on the convolutional neural network (CNN), which has a strong ability to extract local features. But CNN inherently fails in modeling the global context due to the limited receptive fields. However, the transformer can model the global context easily. In this paper, we propose a simple approach called CCTrans to simplify the design pipeline. Specifically, we utilize a pyramid vision transformer backbone to capture the global crowd information, a pyramid feature aggregation (PFA) model to combine low-level and high-level features, an efficient regression head with multi-scale dilated convolution (MDC) to predict density maps. Besides, we tailor the loss functions for our pipeline. Without bells and whistles, extensive experiments demonstrate that our method achieves new state-of-the-art results on several benchmarks both in weakly and fully-supervised crowd counting. Moreover, we currently rank No.1 on the leaderboard of NWPU-Crowd. Our code will be made available.

연구 동기 및 목표

  • 제한된 CNN 수용 필드 너머의 글로벌 컨텍스트를 더 잘 모델링하여 군중 추정 성능을 향상시키려는 동기 부여.
  • 완전- 및 약한-감독 군중 추정의 통합을 위한 단순화된 트랜스포머 기반 파이프라인을 제안한다.
  • 글로벌 컨텍스트를 갖춘 피라미드 트랜스포머를 활용하고 다층 특징을 집계하여 정확한 밀도 맵을 얻는다.
  • 경량 회귀 헤드를 다중 스케일 수용 필드와 맞춤 손실로 개발한다.
  • 다섯 가지 표준 벤치마크에서 최첨단 성능을 입증한다.

제안 방법

  • 이미지를 패치의 1D 시퀀스로 변환하고 pyramid transformer 백본(Twins)으로 전처리하여 글로벌 컨텍스트를 캡처한다.
  • 스테이지 출력을 2D 피처 맵으로 재구성하고 Pyramid Feature Aggregation을 적용하여 저레벨 및 고레벨 정보를 결합한다.
  • 다중 스케일 확장 합성으로 밀도 맵을 회귀하는 MDC를 갖춘 회귀 헤드를 사용한다.
  • 다음으로 구성된 손실을 활용하여 훈련한다: 완전-감독 밀도 회귀 손실은 L1, OT, 평활화된 L2 항을 결합; 약한-감독의 평활화된 L1 카운팅 손실.
  • 약한 감독 하에서 밀도 맵 픽셀을 합산하여 군중 수를 얻는 선택적 방식으로 운영할 수 있다.
  • 두 가지 설계 블록(PFA 및 MDC)와 주의 깊은 손실 설정을 도입하여 지나친 복잡성 없이 강력한 성능을 달성한다.

실험 결과

연구 질문

  • RQ1변환기 기반 백본과 간단한 특징 집계가 표준 벤치마크에서 완전- 및 약한-감독 모드 모두에서 CNN 기반 군중 추정 파이프라인과 맞먹거나 능가할 수 있는가?
  • RQ2글로벌 컨텍스트가 피라미드 트랜스포머에 의해 잘 모델링될 때, 경량 다중 스케일 확장 회귀 헤드가 밀도 맵 회귀에 충분한가?
  • RQ3맞춤 손실 함수가 완전- 및 약한-감독 군중 추정 성능에 어떤 영향을 미치는가?
  • RQ4CCTrans가 TransCrowd 및 BCCT와 같은 트랜스포머 기반 카운터포인트들에 대해 데이터세트 간으로 어떻게 비교되는가?

주요 결과

  • CCTrans는 완전- 및 약한-감독 설정 모두에서 다양한 인기 있는 군중 추정 벤치마크에서 새로운 최첨단 성능을 달성한다.
  • NWPU-Crowd에서 CCTrans는 리더보드의 No.1에 랭크되며(밸리데이션 및 테스트 성능이 보고됨).
  • 다중 스케일 확장 합성(MDC)을 갖춘 간단한 회귀 헤드가 다중 스케일 맥락을 효과적으로 활용하여 밀도 회귀를 수행한다.
  • Pyramid Feature Aggregation(PFA)이 다단계 트랜스포머 피처를 융합하여 성능을 크게 향상시킨다.
  • 세심하게 설계된 손실(약한-감독용 평활화된 L1; 완전-감독용 L1+OT+평활화된 L2)이 견고성과 정확도를 향상시킨다.
  • 추가 실험은 PFA와 MDC의 기여가 최종 성능에 크게 작용함을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.