Skip to main content
QUICK REVIEW

[논문 리뷰] CounTR: Transformer-based Generalised Visual Counting

Chang Liu, Yujie Zhong|arXiv (Cornell University)|2022. 08. 29.
Video Surveillance and Tracking Methods인용 수 31
한 줄 요약

CounTR은 예시 기반 주의(attention) 및 자기지도 사전학습을 활용하여 오픈월드, 제로샷에서 소샷까지의 시각적 카운팅에 대해 트랜스포머 기반 아키텍처를 도입하고 FSC-147에서 최첨단 성능을 달성한다.

ABSTRACT

In this paper, we consider the problem of generalised visual object counting, with the goal of developing a computational model for counting the number of objects from arbitrary semantic categories, using arbitrary number of "exemplars", i.e. zero-shot or few-shot counting. To this end, we make the following four contributions: (1) We introduce a novel transformer-based architecture for generalised visual object counting, termed as Counting Transformer (CounTR), which explicitly capture the similarity between image patches or with given "exemplars" with the attention mechanism;(2) We adopt a two-stage training regime, that first pre-trains the model with self-supervised learning, and followed by supervised fine-tuning;(3) We propose a simple, scalable pipeline for synthesizing training images with a large number of instances or that from different semantic categories, explicitly forcing the model to make use of the given "exemplars";(4) We conduct thorough ablation studies on the large-scale counting benchmark, e.g. FSC-147, and demonstrate state-of-the-art performance on both zero and few-shot settings.

연구 동기 및 목표

  • 임의의 의미 범주와 다양한 예시 수를 지원하는 제로샷에서 소샷까지의 오픈월드 시각 객체 카운팅을 목표로 한다.
  • 이미지 영역을 예시와 비교하기 위해 자기 주의(Self-attention)를 활용하는 트랜스포머 기반 Counting TRansformer(CounTR)을 개발한다.
  • 먼저 MAE 기반 자기지도 사전 학습으로 ViT 인코더를 사전 학습한 뒤 카운팅을 위한 감독 학습 미세조정을 수행하는 두 단계 학습 규칙을 제시한다.
  • 롱테일 분포를 완화하고 예시 조건화를 개선하기 위해 확장 가능한 모자이크 데이터 합성 파이프라인을 도입한다.
  • 제로샷 및 소샷 설정에서 FSC-147에 대한 최첨단 성능을 입증한다.

제안 방법

  • CounTR를 제안한다. 이미지 ViT 인코더가 피처 토큰을 출력하고 예시 피처를 교차-attention용으로 별도로 인코딩하는 피처 인터랙션 모듈(FIM)을 가진 트랜스포머 기반 아키텍처.
  • FIM은 디코더 스타일 트랜스포머 레이어를 사용해 이미지 패치와 예시 표현 간의 교차 및 자기-attention을 가능하게 하며 밀도 맵을 생성한다.
  • 진행형 디코더가 FIM 출력을 2D 밀도 맵으로 업샘플링하며 최종 카운트은 이 밀도 맵의 합계이다.
  • 두 단계 학습: 먼저 이미지 재구성에 MAE(Masked Autoencoders)를 이용한 ViT 인코더의 자기지 도 사전 학습, 그런 다음 카운팅을 위한 감독 학습 미세조정.
  • 다수 인스턴스와 다양한 배경을 가진 이미지를 생성하는 확장 가능한 모자이크 데이터 생성 파이프라인(콜라주 및 블렌딩)을 도입해 롱테일 분포를 해결한다.
  • 추론 시 예측 보정을 위해 테스트 타임 정규화 및 자르기 전략을 도입해 아주 작은 객체나 예시 배치 문제를 다룬다.

실험 결과

연구 질문

  • RQ1제로샷 또는 소샷 예시만으로도 트랜스포머 기반 모델이 임의의 객체 클래스에 대해 카운팅을 일반화할 수 있는가?
  • RQ2자기지도 사전 학습이 제로샷 및 소샷 설정에서 카운팅 성능을 향상시키는가?
  • RQ3훈련 데이터의 합성 모자이크가 롱테일 분포를 완화하고 다수 인스턴스가 있는 이미지에서 카운팅을 개선하는가?
  • RQ4예시 기반 카운팅을 위한 밀도 출력 보정을 위한 효과적인 테스트타임 전략은 무엇인가?

주요 결과

방법연도백본# 샷밸 Val MAE밸 Val RMSE테스트 MAE테스트 RMSE
RepRPN-C2022ConvNets031.69100.3128.32128.76
RCC2022Pre-trained ViT020.3964.6221.64103.47
CounTR (ours)2022ViT018.0771.8414.71106.87
FR2019ConvNets345.45112.5341.64141.04
FSOD2020ConvNets336.36115.0032.53140.65
P-GMN2018ConvNets360.56137.7862.69159.67
GMN2018ConvNets329.6689.8126.52124.57
MAML2017ConvNets325.5479.4424.90112.68
FamNet2021ConvNets323.7569.0722.0899.54
BMNet+2022ConvNets315.7458.5314.6291.83
  • CounTR은 FSC-147에서 제로샷 및 소샷 설정에 대해 최첨단 MAE/RMSE를 달성한다(예: 제로샷 MAE 18.07, Val RMSE 71.84; Test MAE 14.71, RMSE 106.87).
  • 자기지도 MAE 사전 학습은 감독 미세조정만 하는 것보다 성능을 크게 향상시킨다.
  • 모자이크 데이터 합성은 특히 많은 인스턴스가 있는 이미지에서 결과를 추가로 개선한다.
  • 테스트 타임 정규화 및 자르기 역시 특히 소샷 설정에서 카운팅 정확도를 더욱 향상시킨다.
  • 3개의 예시를 사용하는 CounTR은 견고하며 1, 2, 3샷 간 차이가 거의 없다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.