QUICK REVIEW

[논문 리뷰] Exploring Plain Vision Transformer Backbones for Object Detection

Yanghao Li, Hanzi Mao|arXiv (Cornell University)|2022. 03. 30.

Advanced Neural Network Applications인용 수 42

한 줄 요약

본 논문은 일반(비계층적) ViT 백본을 물체 탐지에 활용하는 것을 연구하여, 최소한의 미세 조정 적응과 MAE 사전 학습으로 경쟁력 있는 결과를 보여주며, ViT-H와 ImageNet-1K 사전 학습으로 COCO에서 61.3 AP 박스를 달성했다.

ABSTRACT

We explore the plain, non-hierarchical Vision Transformer (ViT) as a backbone network for object detection. This design enables the original ViT architecture to be fine-tuned for object detection without needing to redesign a hierarchical backbone for pre-training. With minimal adaptations for fine-tuning, our plain-backbone detector can achieve competitive results. Surprisingly, we observe: (i) it is sufficient to build a simple feature pyramid from a single-scale feature map (without the common FPN design) and (ii) it is sufficient to use window attention (without shifting) aided with very few cross-window propagation blocks. With plain ViT backbones pre-trained as Masked Autoencoders (MAE), our detector, named ViTDet, can compete with the previous leading methods that were all based on hierarchical backbones, reaching up to 61.3 AP_box on the COCO dataset using only ImageNet-1K pre-training. We hope our study will draw attention to research on plain-backbone detectors. Code for ViTDet is available in Detectron2.

연구 동기 및 목표

탐지 특화 모듈로부터 백본 설계를 분리하여 일반 ViT 백본을 탐지에 미세 조정 가능하게 한다.
간단하고 비계층적인 백본이 전통적인 FPN 없이 다중 스케일 탐지를 지원할 수 있음을 보여준다.
윈도우 어텐션과 간단한 피처 피라미드 같은 최소한의 적응이 강력한 성능에 충분함을 보여준다.
공정한 조건에서 일반 백본 탐지기와 선도하는 계층적 백본(Swin, MViT)을 비교한다.
탐지 작업에서 일반 ViT 백본에 대한 MAE 사전 학습의 이점을 강조한다.

제안 방법

ImageNet-1K에서 Masked Autoencoder (MAE)로 사전 학습된 일반 ViT 백본(ViT-B/L/H)을 사용한다.
일반 백본의 마지막 특징 맵으로부터 간단한 피처 피라미드를 구성하여 FPN 스타일의 계층적 백본 없이도 다중 스케일 탐지를 가능하게 한다.
미세 조정 도중 윈도우 기반 자기 주의(window-based self-attention)를 적용하고 소수의 cross-window 프로파게이션 블록(전역 주의 또는 합성곱)을 사용한다.
이미지넷-1K MAE 사전 학습으로 COCO에서 Mask R-CNN / Cascade Mask R-CNN 탐지기를 미세 조정하고, 표준 탐지 헤드를 사용한다.
성능과 효율성을 위해 백본 적응 전략 네 가지(없음, conv propagation, global propagation, 다양한 propagation 배치) 비교한다.
COCO와 LVIS 데이터셋 전반에 걸쳐 평가하며, Swin 및 MViT 계층적 백본과의 비교를 포함한다.

실험 결과

연구 질문

RQ1일반적이고 비계층적인 ViT 백본을 물체 탐지 성능을 포기하지 않으면서 다중 스케일 물체 탐지에 효과적으로 미세 조정할 수 있는가?
RQ2경쟁력 있는 탐지 결과를 달성하기에 충분한 일반 ViT 백본에 필요한 최소한의 적응은 무엇인가(피처 피라미드, 윈도우 어텐션, 크로스 윈도우 프로파게이션)?

주요 결과

단순 피처 피라미드를 갖춘 일반 백본이 피라미드가 없는 기준선을 COCO에서 최대 3.4 AP 차이로 능가한다.
적은 수의 cross-window 프로파게이션 블록이 포함된 윈도우 주의가 탐지 작업에서도 sufficient한 정확도를 제공한다.
IN-1K에서의 MAE 사전학습은 탐지에서 ViT 백본에 실질적인 이익을 준다(예: ViT-B +3.1 AP, ViT-L +4.6 AP).
MAE 사전학습이 적용된 ViTDet은 계층적 백본과 경쟁력 있는 결과를 달성할 수 있으며, 대형 모델의 경우 일부 계층적 방법을 능가할 수 있다.
MAE 사전학습이 적용된 ViT-H는 COCO에서 61.3 AP 박스를 달성하여 일반 백본으로 강력한 탐지 성능과 일치한다.
일반 백본 탐지기가 일부 계층적 백본 방법에 비해 스케일링이 좋고 월-시계 성능이 더 빠름을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.