[논문 리뷰] CounTR: Transformer-based Generalised Visual Counting
CounTR은 예시 기반 주의(attention) 및 자기지도 사전학습을 활용하여 오픈월드, 제로샷에서 소샷까지의 시각적 카운팅에 대해 트랜스포머 기반 아키텍처를 도입하고 FSC-147에서 최첨단 성능을 달성한다.
In this paper, we consider the problem of generalised visual object counting, with the goal of developing a computational model for counting the number of objects from arbitrary semantic categories, using arbitrary number of "exemplars", i.e. zero-shot or few-shot counting. To this end, we make the following four contributions: (1) We introduce a novel transformer-based architecture for generalised visual object counting, termed as Counting Transformer (CounTR), which explicitly capture the similarity between image patches or with given "exemplars" with the attention mechanism;(2) We adopt a two-stage training regime, that first pre-trains the model with self-supervised learning, and followed by supervised fine-tuning;(3) We propose a simple, scalable pipeline for synthesizing training images with a large number of instances or that from different semantic categories, explicitly forcing the model to make use of the given "exemplars";(4) We conduct thorough ablation studies on the large-scale counting benchmark, e.g. FSC-147, and demonstrate state-of-the-art performance on both zero and few-shot settings.
연구 동기 및 목표
- 임의의 의미 범주와 다양한 예시 수를 지원하는 제로샷에서 소샷까지의 오픈월드 시각 객체 카운팅을 목표로 한다.
- 이미지 영역을 예시와 비교하기 위해 자기 주의(Self-attention)를 활용하는 트랜스포머 기반 Counting TRansformer(CounTR)을 개발한다.
- 먼저 MAE 기반 자기지도 사전 학습으로 ViT 인코더를 사전 학습한 뒤 카운팅을 위한 감독 학습 미세조정을 수행하는 두 단계 학습 규칙을 제시한다.
- 롱테일 분포를 완화하고 예시 조건화를 개선하기 위해 확장 가능한 모자이크 데이터 합성 파이프라인을 도입한다.
- 제로샷 및 소샷 설정에서 FSC-147에 대한 최첨단 성능을 입증한다.
제안 방법
- CounTR를 제안한다. 이미지 ViT 인코더가 피처 토큰을 출력하고 예시 피처를 교차-attention용으로 별도로 인코딩하는 피처 인터랙션 모듈(FIM)을 가진 트랜스포머 기반 아키텍처.
- FIM은 디코더 스타일 트랜스포머 레이어를 사용해 이미지 패치와 예시 표현 간의 교차 및 자기-attention을 가능하게 하며 밀도 맵을 생성한다.
- 진행형 디코더가 FIM 출력을 2D 밀도 맵으로 업샘플링하며 최종 카운트은 이 밀도 맵의 합계이다.
- 두 단계 학습: 먼저 이미지 재구성에 MAE(Masked Autoencoders)를 이용한 ViT 인코더의 자기지 도 사전 학습, 그런 다음 카운팅을 위한 감독 학습 미세조정.
- 다수 인스턴스와 다양한 배경을 가진 이미지를 생성하는 확장 가능한 모자이크 데이터 생성 파이프라인(콜라주 및 블렌딩)을 도입해 롱테일 분포를 해결한다.
- 추론 시 예측 보정을 위해 테스트 타임 정규화 및 자르기 전략을 도입해 아주 작은 객체나 예시 배치 문제를 다룬다.
실험 결과
연구 질문
- RQ1제로샷 또는 소샷 예시만으로도 트랜스포머 기반 모델이 임의의 객체 클래스에 대해 카운팅을 일반화할 수 있는가?
- RQ2자기지도 사전 학습이 제로샷 및 소샷 설정에서 카운팅 성능을 향상시키는가?
- RQ3훈련 데이터의 합성 모자이크가 롱테일 분포를 완화하고 다수 인스턴스가 있는 이미지에서 카운팅을 개선하는가?
- RQ4예시 기반 카운팅을 위한 밀도 출력 보정을 위한 효과적인 테스트타임 전략은 무엇인가?
주요 결과
| 방법 | 연도 | 백본 | # 샷 | 밸 Val MAE | 밸 Val RMSE | 테스트 MAE | 테스트 RMSE |
|---|---|---|---|---|---|---|---|
| RepRPN-C | 2022 | ConvNets | 0 | 31.69 | 100.31 | 28.32 | 128.76 |
| RCC | 2022 | Pre-trained ViT | 0 | 20.39 | 64.62 | 21.64 | 103.47 |
| CounTR (ours) | 2022 | ViT | 0 | 18.07 | 71.84 | 14.71 | 106.87 |
| FR | 2019 | ConvNets | 3 | 45.45 | 112.53 | 41.64 | 141.04 |
| FSOD | 2020 | ConvNets | 3 | 36.36 | 115.00 | 32.53 | 140.65 |
| P-GMN | 2018 | ConvNets | 3 | 60.56 | 137.78 | 62.69 | 159.67 |
| GMN | 2018 | ConvNets | 3 | 29.66 | 89.81 | 26.52 | 124.57 |
| MAML | 2017 | ConvNets | 3 | 25.54 | 79.44 | 24.90 | 112.68 |
| FamNet | 2021 | ConvNets | 3 | 23.75 | 69.07 | 22.08 | 99.54 |
| BMNet+ | 2022 | ConvNets | 3 | 15.74 | 58.53 | 14.62 | 91.83 |
- CounTR은 FSC-147에서 제로샷 및 소샷 설정에 대해 최첨단 MAE/RMSE를 달성한다(예: 제로샷 MAE 18.07, Val RMSE 71.84; Test MAE 14.71, RMSE 106.87).
- 자기지도 MAE 사전 학습은 감독 미세조정만 하는 것보다 성능을 크게 향상시킨다.
- 모자이크 데이터 합성은 특히 많은 인스턴스가 있는 이미지에서 결과를 추가로 개선한다.
- 테스트 타임 정규화 및 자르기 역시 특히 소샷 설정에서 카운팅 정확도를 더욱 향상시킨다.
- 3개의 예시를 사용하는 CounTR은 견고하며 1, 2, 3샷 간 차이가 거의 없다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.