QUICK REVIEW

[논문 리뷰] CounTR: Transformer-based Generalised Visual Counting

Chang Liu, Yujie Zhong|arXiv (Cornell University)|2022. 08. 29.

Video Surveillance and Tracking Methods인용 수 31

한 줄 요약

CounTR은 예시 기반 주의(attention) 및 자기지도 사전학습을 활용하여 오픈월드, 제로샷에서 소샷까지의 시각적 카운팅에 대해 트랜스포머 기반 아키텍처를 도입하고 FSC-147에서 최첨단 성능을 달성한다.

ABSTRACT

In this paper, we consider the problem of generalised visual object counting, with the goal of developing a computational model for counting the number of objects from arbitrary semantic categories, using arbitrary number of "exemplars", i.e. zero-shot or few-shot counting. To this end, we make the following four contributions: (1) We introduce a novel transformer-based architecture for generalised visual object counting, termed as Counting Transformer (CounTR), which explicitly capture the similarity between image patches or with given "exemplars" with the attention mechanism;(2) We adopt a two-stage training regime, that first pre-trains the model with self-supervised learning, and followed by supervised fine-tuning;(3) We propose a simple, scalable pipeline for synthesizing training images with a large number of instances or that from different semantic categories, explicitly forcing the model to make use of the given "exemplars";(4) We conduct thorough ablation studies on the large-scale counting benchmark, e.g. FSC-147, and demonstrate state-of-the-art performance on both zero and few-shot settings.

연구 동기 및 목표

임의의 의미 범주와 다양한 예시 수를 지원하는 제로샷에서 소샷까지의 오픈월드 시각 객체 카운팅을 목표로 한다.
이미지 영역을 예시와 비교하기 위해 자기 주의(Self-attention)를 활용하는 트랜스포머 기반 Counting TRansformer(CounTR)을 개발한다.
먼저 MAE 기반 자기지도 사전 학습으로 ViT 인코더를 사전 학습한 뒤 카운팅을 위한 감독 학습 미세조정을 수행하는 두 단계 학습 규칙을 제시한다.
롱테일 분포를 완화하고 예시 조건화를 개선하기 위해 확장 가능한 모자이크 데이터 합성 파이프라인을 도입한다.
제로샷 및 소샷 설정에서 FSC-147에 대한 최첨단 성능을 입증한다.

제안 방법

CounTR를 제안한다. 이미지 ViT 인코더가 피처 토큰을 출력하고 예시 피처를 교차-attention용으로 별도로 인코딩하는 피처 인터랙션 모듈(FIM)을 가진 트랜스포머 기반 아키텍처.
FIM은 디코더 스타일 트랜스포머 레이어를 사용해 이미지 패치와 예시 표현 간의 교차 및 자기-attention을 가능하게 하며 밀도 맵을 생성한다.
진행형 디코더가 FIM 출력을 2D 밀도 맵으로 업샘플링하며 최종 카운트은 이 밀도 맵의 합계이다.
두 단계 학습: 먼저 이미지 재구성에 MAE(Masked Autoencoders)를 이용한 ViT 인코더의 자기지 도 사전 학습, 그런 다음 카운팅을 위한 감독 학습 미세조정.
다수 인스턴스와 다양한 배경을 가진 이미지를 생성하는 확장 가능한 모자이크 데이터 생성 파이프라인(콜라주 및 블렌딩)을 도입해 롱테일 분포를 해결한다.
추론 시 예측 보정을 위해 테스트 타임 정규화 및 자르기 전략을 도입해 아주 작은 객체나 예시 배치 문제를 다룬다.

실험 결과

연구 질문

RQ1제로샷 또는 소샷 예시만으로도 트랜스포머 기반 모델이 임의의 객체 클래스에 대해 카운팅을 일반화할 수 있는가?
RQ2자기지도 사전 학습이 제로샷 및 소샷 설정에서 카운팅 성능을 향상시키는가?
RQ3훈련 데이터의 합성 모자이크가 롱테일 분포를 완화하고 다수 인스턴스가 있는 이미지에서 카운팅을 개선하는가?
RQ4예시 기반 카운팅을 위한 밀도 출력 보정을 위한 효과적인 테스트타임 전략은 무엇인가?

주요 결과

방법	연도	백본	# 샷	밸 Val MAE	밸 Val RMSE	테스트 MAE	테스트 RMSE
RepRPN-C	2022	ConvNets	0	31.69	100.31	28.32	128.76
RCC	2022	Pre-trained ViT	0	20.39	64.62	21.64	103.47
CounTR (ours)	2022	ViT	0	18.07	71.84	14.71	106.87
FR	2019	ConvNets	3	45.45	112.53	41.64	141.04
FSOD	2020	ConvNets	3	36.36	115.00	32.53	140.65
P-GMN	2018	ConvNets	3	60.56	137.78	62.69	159.67
GMN	2018	ConvNets	3	29.66	89.81	26.52	124.57
MAML	2017	ConvNets	3	25.54	79.44	24.90	112.68
FamNet	2021	ConvNets	3	23.75	69.07	22.08	99.54
BMNet+	2022	ConvNets	3	15.74	58.53	14.62	91.83

CounTR은 FSC-147에서 제로샷 및 소샷 설정에 대해 최첨단 MAE/RMSE를 달성한다(예: 제로샷 MAE 18.07, Val RMSE 71.84; Test MAE 14.71, RMSE 106.87).
자기지도 MAE 사전 학습은 감독 미세조정만 하는 것보다 성능을 크게 향상시킨다.
모자이크 데이터 합성은 특히 많은 인스턴스가 있는 이미지에서 결과를 추가로 개선한다.
테스트 타임 정규화 및 자르기 역시 특히 소샷 설정에서 카운팅 정확도를 더욱 향상시킨다.
3개의 예시를 사용하는 CounTR은 견고하며 1, 2, 3샷 간 차이가 거의 없다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.