QUICK REVIEW

[논문 리뷰] Vision Transformer Adapter for Dense Predictions

Zhe Chen, Yuchen Duan|arXiv (Cornell University)|2022. 05. 17.

Visual Attention and Saliency Detection인용 수 203

한 줄 요약

ViT-Adapter는 가벼운 사전 학습 프리 어댑터를 사용해 일반적인 Vision Transformer에 이미지를 위한 선천적 편향을 주입하고 다중 스케일 특징을 재구성하여, ViT 아키텍처를 수정하지 않고도 밀도 예측 작업에서 최첨단에 근접한 성능을 달성합니다.

ABSTRACT

This work investigates a simple yet powerful dense prediction task adapter for Vision Transformer (ViT). Unlike recently advanced variants that incorporate vision-specific inductive biases into their architectures, the plain ViT suffers inferior performance on dense predictions due to weak prior assumptions. To address this issue, we propose the ViT-Adapter, which allows plain ViT to achieve comparable performance to vision-specific transformers. Specifically, the backbone in our framework is a plain ViT that can learn powerful representations from large-scale multi-modal data. When transferring to downstream tasks, a pre-training-free adapter is used to introduce the image-related inductive biases into the model, making it suitable for these tasks. We verify ViT-Adapter on multiple dense prediction tasks, including object detection, instance segmentation, and semantic segmentation. Notably, without using extra detection data, our ViT-Adapter-L yields state-of-the-art 60.9 box AP and 53.0 mask AP on COCO test-dev. We hope that the ViT-Adapter could serve as an alternative for vision-specific transformers and facilitate future research. The code and models will be released at https://github.com/czczup/ViT-Adapter.

연구 동기 및 목표

일반 ViT와 비전 특화 트랜스포머 간의 밀도 예측 작업에서의 성능 격차를 줄이려는 동기 부여.
Backbone을 변경하지 않고 ViT에 이미지 관련 귀납적 편향을 주입하는 사전 학습 프리 어댑터를 제안.
밀도 예측을 가능하게 하는 세 가지 모듈(공간 사전, 공간 피처 주입기, 다중 스케일 피처 추출기)을 설계.
ViT-Adapter가 객체 탐지, 인스턴스 분할, 의미 분할 전반에서 경쟁력 있거나 우수한 성능을 달성함을 입증.

제안 방법

ViT-Adapter를 두 부분 아키텍처로 소개: 일반 ViT 백본과 세 모듈 어댑터.
입력 이미지로부터 ConvNet 스템을 사용해 3 해상도 피처 피라미드(1/8, 1/16, 1/32)를 구축하는 공간 사전 모듈.
ViT 토큰과 공간 피처 간의 교차 어텐션을 통해 ViT에 공간 사전을 융합하는 공간 피처 주입기.
교차 어텐션과 FFN 연산을 통해 계층적 다중 스케일 피처를 생성하는 다중 스케일 피처 추출기로, 밀도 예측을 위한 피처 피라미드를 형성.
ViT 내의 상호 작용: ViT 인코더를 N 블록으로 나누고(N은 일반적으로 4); 각 블록에서 사전 정보를 주입하고 다중 스케일 피처를 추출하며, 최종 1/8, 1/16, 1/32 피처가 업샘플링되어 다운스트림 헤드의 1/4 스케일 피처 맵을 형성.
어댑터 내 기본 희소 어텐션으로 변형 가능 어텐션을 채택하고 ViT 사전 학습 가중치를 보존하기 위한 균형 초기화를 사용.

실험 결과

연구 질문

RQ1사전 학습이 필요 없는 어댑터가 일반 ViT에 비전 특화 귀납 편향을 도입해 밀도 예측 작업에서 비전 특화 트랜스포머와의 격차를 줄일 수 있는가?
RQ2공간 사전, 교차 어텐션 기반 피처 주입, 다중 스케일 피처 추출이 밀도 예측 성능에 어떻게 기여하는가?
RQ3ViT-Adapter가 추가적인 사전 학습 데이터 없이 일반 ViT 백본으로 객체 탐지, 인스턴스 분할, 의미 분할에서 경쟁력 있는 결과를 달성하게 하는가?
RQ4멀티모달 사전 학습이 단독 ImageNet 사전 학습보다 ViT-Adapter의 성능을 얼마나 더 끌어올리는가?

주요 결과

ViT-Adapter는 일반 ViT의 성능을 이미지 특화 백본 대비 일관되게 향상시키며, 정규 ImageNet-1K 사전 학습하에 비교적 우수한 결과를 보인다.
다중 모달 사전 학습을 사용하면 ViT-Adapter-L이 추가 탐지 데이터 없이 COCO test-dev에서 박스 AP 60.9, 마스크 AP 53.0을 달성한다.
ViT-Adapter-S가 동등한 사전 학습 하에서 ViT-Det 및 여러 비전 특화 모델을 능가하여 어댑터를 통한 이미지 편향의 효과적 전달을 시사한다.
ImageNet-22K 사전 학습을 사용한 의미 분할 결과에서 ViT-Adapter-B/L가 Swin-B/L 등과 경쟁력 있거나 우수한 mIoU를 보이고, 다중 모달 사전 학습은 추가 이득을 준다(예: ADE20K에서 ViT-Adapter-L ★).
각 구성 요소(SPM, 공간 피처 주입기, 다중 스케일 피처 추출기)가 성능 향상에 기여함을 확인하는 차등 실험이 있으며, 전체 ViT-Adapter가 기초 대비 상당한 향상을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.