[논문 리뷰] Exploring Plain Vision Transformer Backbones for Object Detection
본 논문은 일반(비계층적) ViT 백본을 물체 탐지에 활용하는 것을 연구하여, 최소한의 미세 조정 적응과 MAE 사전 학습으로 경쟁력 있는 결과를 보여주며, ViT-H와 ImageNet-1K 사전 학습으로 COCO에서 61.3 AP 박스를 달성했다.
We explore the plain, non-hierarchical Vision Transformer (ViT) as a backbone network for object detection. This design enables the original ViT architecture to be fine-tuned for object detection without needing to redesign a hierarchical backbone for pre-training. With minimal adaptations for fine-tuning, our plain-backbone detector can achieve competitive results. Surprisingly, we observe: (i) it is sufficient to build a simple feature pyramid from a single-scale feature map (without the common FPN design) and (ii) it is sufficient to use window attention (without shifting) aided with very few cross-window propagation blocks. With plain ViT backbones pre-trained as Masked Autoencoders (MAE), our detector, named ViTDet, can compete with the previous leading methods that were all based on hierarchical backbones, reaching up to 61.3 AP_box on the COCO dataset using only ImageNet-1K pre-training. We hope our study will draw attention to research on plain-backbone detectors. Code for ViTDet is available in Detectron2.
연구 동기 및 목표
- 탐지 특화 모듈로부터 백본 설계를 분리하여 일반 ViT 백본을 탐지에 미세 조정 가능하게 한다.
- 간단하고 비계층적인 백본이 전통적인 FPN 없이 다중 스케일 탐지를 지원할 수 있음을 보여준다.
- 윈도우 어텐션과 간단한 피처 피라미드 같은 최소한의 적응이 강력한 성능에 충분함을 보여준다.
- 공정한 조건에서 일반 백본 탐지기와 선도하는 계층적 백본(Swin, MViT)을 비교한다.
- 탐지 작업에서 일반 ViT 백본에 대한 MAE 사전 학습의 이점을 강조한다.
제안 방법
- ImageNet-1K에서 Masked Autoencoder (MAE)로 사전 학습된 일반 ViT 백본(ViT-B/L/H)을 사용한다.
- 일반 백본의 마지막 특징 맵으로부터 간단한 피처 피라미드를 구성하여 FPN 스타일의 계층적 백본 없이도 다중 스케일 탐지를 가능하게 한다.
- 미세 조정 도중 윈도우 기반 자기 주의(window-based self-attention)를 적용하고 소수의 cross-window 프로파게이션 블록(전역 주의 또는 합성곱)을 사용한다.
- 이미지넷-1K MAE 사전 학습으로 COCO에서 Mask R-CNN / Cascade Mask R-CNN 탐지기를 미세 조정하고, 표준 탐지 헤드를 사용한다.
- 성능과 효율성을 위해 백본 적응 전략 네 가지(없음, conv propagation, global propagation, 다양한 propagation 배치) 비교한다.
- COCO와 LVIS 데이터셋 전반에 걸쳐 평가하며, Swin 및 MViT 계층적 백본과의 비교를 포함한다.
실험 결과
연구 질문
- RQ1일반적이고 비계층적인 ViT 백본을 물체 탐지 성능을 포기하지 않으면서 다중 스케일 물체 탐지에 효과적으로 미세 조정할 수 있는가?
- RQ2경쟁력 있는 탐지 결과를 달성하기에 충분한 일반 ViT 백본에 필요한 최소한의 적응은 무엇인가(피처 피라미드, 윈도우 어텐션, 크로스 윈도우 프로파게이션)?
주요 결과
- 단순 피처 피라미드를 갖춘 일반 백본이 피라미드가 없는 기준선을 COCO에서 최대 3.4 AP 차이로 능가한다.
- 적은 수의 cross-window 프로파게이션 블록이 포함된 윈도우 주의가 탐지 작업에서도 sufficient한 정확도를 제공한다.
- IN-1K에서의 MAE 사전학습은 탐지에서 ViT 백본에 실질적인 이익을 준다(예: ViT-B +3.1 AP, ViT-L +4.6 AP).
- MAE 사전학습이 적용된 ViTDet은 계층적 백본과 경쟁력 있는 결과를 달성할 수 있으며, 대형 모델의 경우 일부 계층적 방법을 능가할 수 있다.
- MAE 사전학습이 적용된 ViT-H는 COCO에서 61.3 AP 박스를 달성하여 일반 백본으로 강력한 탐지 성능과 일치한다.
- 일반 백본 탐지기가 일부 계층적 백본 방법에 비해 스케일링이 좋고 월-시계 성능이 더 빠름을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.