[논문 리뷰] RGB-T Multi-Modal Crowd Counting Based on Transformer
이 논문은 RGB-T 카운트-가이드 다중 모달 융합과 다중 스케일 토큰 트랜스포머를 사용하여 학습 가능한 카운트 토큰 하에서 색상 및 열 특징을 융합하고, 모달 가이드 카운팅 향상으로 RGB-T 군중 수 추정에서 최첨단 성능을 달성하는 RGB-T 군중 수 모델을 제안한다.
Crowd counting aims to estimate the number of persons in a scene. Most state-of-the-art crowd counting methods based on color images can't work well in poor illumination conditions due to invisible objects. With the widespread use of infrared cameras, crowd counting based on color and thermal images is studied. Existing methods only achieve multi-modal fusion without count objective constraint. To better excavate multi-modal information, we use count-guided multi-modal fusion and modal-guided count enhancement to achieve the impressive performance. The proposed count-guided multi-modal fusion module utilizes a multi-scale token transformer to interact two-modal information under the guidance of count information and perceive different scales from the token perspective. The proposed modal-guided count enhancement module employs multi-scale deformable transformer decoder structure to enhance one modality feature and count information by the other modality. Experiment in public RGBT-CC dataset shows that our method refreshes the state-of-the-art results. https://github.com/liuzywen/RGBTCC
연구 동기 및 목표
- 조명이 불량한 환경에서도 RGB-T 모달리티를 활용하여 강건한 군중 수 추정을 동기화.
- RGB와 열 특징을 글로벌 카운트 제약과 함께 융합하기 위한 카운트 가이드 융합 메커니즘 개발.
- 군중의 대-scale 변동에 대응하기 위한 다중 스케일 토큰 트랜스포머 도입.
- 한 모달리티가 다른 모달리티의 카운트를 정제하도록 하는 모달-가이드 카운팅 향상 기능을 활성화.
제안 방법
- 두 개의 PVT 인코더를 사용하여 높은 층의 RGB 및 열 특징을 추출한다.
- 학습 가능한 카운트 토큰을 도입하여 Multi-Scale Token Transformer (MSTTrans)를 통해 RGB와 열 토큰의 카운트-의식 융합을 안내한다.
- 세 가지 토큰 스케일(초기, 중간 규모, 대규모)을 구성하고 병렬 멀티헤드 자기 주의를 적용하여 융합한다.
- 변형 가능한 주의를 사용하는 모달-가이드 카운팅 향상 모듈(MSDTrans)을 제안하여 한 모달리티의 밀도/카운트를 다른 모달리티로부터 정제한다.
- 밀도 맵을 산출하는 회귀 헤드와 카운트 토큰에 대한 L1 손실, 밀도 맵에 대한 분포 매칭 손실을 사용한다.
실험 결과
연구 질문
- RQ1카운트-가이드 융합이 기존 융합 전략에 비해 RGB-T 군중 수 추정을 개선할 수 있는가?
- RQ2다중 스케일 토큰 트랜스포머가 RGB-T 수를 위한 대-scale 변화를 완화하는가?
- RQ3모달-가이드 카운팅 향상이 모달 간 정보를 전달하여 밀도 맵 정확도를 향상시키는가?
- RQ4제안된 모듈들(MSTTrans 및 MSDTrans)이 표준 RGB-T 데이터셋에서 누적 이점을 제공하는가?
주요 결과
- 당사 방법은 RGBT-CC 데이터셋에서 최첨단 결과를 달성했으며, 메트릭 간 두 번째로 우수한 방법 대비 명확한 향상이 있다.
- MSTTrans는 더 나은 융합과 다중 스케일 컨텍스트의 혜택으로 GAME(0)을 11.62에서 10.91로 개선한다.
- MSDTrans는 한 모달리티가 다른 모달리티의 카운트 추정에 도움을 주도록 하여 추가 이점을 제공한다.
- 전체 모델은 RGBT-CC에서 GAME(0)=10.90, GAME(1)=14.81, GAME(2)=19.02, GAME(3)=26.14, RMSE=18.79를 달성한다.
- 특정 제거 실험은 카운트 가이드 및 융합과 카운트 설계의 다중 스케일 디자인의 효과를 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.