[논문 리뷰] Toward Transformer-Based Object Detection
ViT-FRCNN은 비전 트랜스포머 백본을 Faster R-CNN 스타일 검출기와 재목적화하여 COCO 검출 결과에서 경쟁력 있고, 도메인 외 일반화가 더 낫다는 것을 보여주며, 탐지 작업을 위한 대규모 사전 학습의 이점을 강조합니다.
Transformers have become the dominant model in natural language processing, owing to their ability to pretrain on massive amounts of data, then transfer to smaller, more specific tasks via fine-tuning. The Vision Transformer was the first major attempt to apply a pure transformer model directly to images as input, demonstrating that as compared to convolutional networks, transformer-based architectures can achieve competitive results on benchmark classification tasks. However, the computational complexity of the attention operator means that we are limited to low-resolution inputs. For more complex tasks such as detection or segmentation, maintaining a high input resolution is crucial to ensure that models can properly identify and reflect fine details in their output. This naturally raises the question of whether or not transformer-based architectures such as the Vision Transformer are capable of performing tasks other than classification. In this paper, we determine that Vision Transformers can be used as a backbone by a common detection task head to produce competitive COCO results. The model that we propose, ViT-FRCNN, demonstrates several known properties associated with transformers, including large pretraining capacity and fast fine-tuning performance. We also investigate improvements over a standard detection backbone, including superior performance on out-of-domain images, better performance on large objects, and a lessened reliance on non-maximum suppression. We view ViT-FRCNN as an important stepping stone toward a pure-transformer solution of complex vision tasks such as object detection.
연구 동기 및 목표
- 비전 트랜스포머 백본을 검출 헤드와 함께 사용하여 객체 탐지를 수행할 수 있음을 Demonstrate 하다.
- COCO에서 트랜스포머 백본이 탐지 성능과 일반화에 미치는 영향을 평가하다.
- 탐지 전이성에 영향을 주는 사전학습 전략과 아키텍처 조정 방법을 조사하다.
- 공간 해상도, 중간 인코더 특징, 잔차 연결이 탐지 품질에 미치는 영향을 분석하다.
제안 방법
- 최종 트랜스포머 출력을 탐지용 공간 특징 맵으로 해석하여 비전 트랜스포머 백본을 재목적화한다.
- RPN과 RoI 헤드를 갖춘 Faster R-CNN 스타일 검출기로 클래스 라벨과 경계 상자를 예측한다.
- 상세를 보존하기 위해 작은 물체에 고해상도 입력으로 ViT-FRCNN 모델 전체를 엔드투엔드로 미세 조정한다.
- 학습 및 추론 중 다양한 입력 크기와 가로세로 비율을 다루기 위해 위치 임베딩을 보간한다.
- 중간 인코더 출력 사용 및 인코더와 검출기 연결을 위한 잔차 블록 추가를 포함한 아키텍처 변형을 조사한다.
- 대규모 이미지 데이터셋(ImageNet-21k, Annotations-1.3B, Open Images)에서 백본을 사전 학습하고 커리큘럼 사전학습을 탐구한다.
실험 결과
연구 질문
- RQ1순수한 Transformer 백본이 기존 검출 헤드와 결합될 때 경쟁력 있는 객체 탐지 성능을 달성할 수 있는가?
- RQ2입력 공간 해상도와 피처 맵 준비가 특히 작은 물체의 탐지 정확도에 어떤 영향을 미치는가?
- RQ3대규모 사전 학습과 커리큘럼 사전학습이 탐지 전이 성능에 미치는 영향은 무엇인가?
- RQ4중간 인코더 특징 및 아키텍처 연결이 ViT 백본을 사용할 때 검출기 성능을 향상시키는가?
- RQ5ViT-FRCNN은 CNN 기반 검출기와 비교하여 도메인 외 데이터에 얼마나 일반화되는가?
주요 결과
- ViT-FRCNN은 ResNet-FRCNN-FPN 기본 모델에 비해 COCO AP에서 경쟁력을 가지며, 작은 패치 크기(16x16)를 사용할 때 더 큰 향상을 보이고 더 큰 패치 크기(32x32)보다 우수한 개선을 보인다.
- 패치 크기를 32x32에서 16x16으로 줄이면 특히 작은 물체(AP_S)에서 상당한 AP 이득이 나타난다.
- 중간 인코더 출력과 잔차 블록을 도입하면 AP가 향상되며, 일정 수의 블록 이후에는 수익이 감소한다.
- ViT-FRCNN은 Out-of-Domain 데이터셋(ObjectNet-D)에서 더 강한 일반화를 보이며, Open Images V6를 포함한 대규모 사전 학습의 이점을 얻어 일부 설정에서 AP를 약 2–3 포인트 정도 향상시킨다.
- 트랜스포머 기반 검출기는 특히 느슨한 NMS 하에서 과잉 탐지를 줄여 가짜 박스의 억제가 더 잘 이루어진다.
- Open Images V6에서의 커리큘럼 사전학습은 ImageNet-21k 사전학습보다 추가적인 AP 이득을 제공하며, 특히 작은/중간 물체에 대해 더 큰 효과를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.