[논문 리뷰] Global Context Vision Transformers
GC ViT는 계층형 ViT에서 공유 글로벌 쿼리 토큰으로 글로벌 컨텍스트 자기 주의를 도입하여 사전 학습 없이 ImageNet-1K에서 최첨단 성능을 달성하고 COCO 및 ADE20K 다운스트림 작업에서도 강력한 성능을 발휘합니다.
We propose global context vision transformer (GC ViT), a novel architecture that enhances parameter and compute utilization for computer vision. Our method leverages global context self-attention modules, joint with standard local self-attention, to effectively and efficiently model both long and short-range spatial interactions, without the need for expensive operations such as computing attention masks or shifting local windows. In addition, we address the lack of the inductive bias in ViTs, and propose to leverage a modified fused inverted residual blocks in our architecture. Our proposed GC ViT achieves state-of-the-art results across image classification, object detection and semantic segmentation tasks. On ImageNet-1K dataset for classification, the variants of GC ViT with 51M, 90M and 201M parameters achieve 84.3%, 85.0% and 85.7% Top-1 accuracy, respectively, at 224 image resolution and without any pre-training, hence surpassing comparably-sized prior art such as CNN-based ConvNeXt and ViT-based MaxViT and Swin Transformer by a large margin. Pre-trained GC ViT backbones in downstream tasks of object detection, instance segmentation, and semantic segmentation using MS COCO and ADE20K datasets outperform prior work consistently. Specifically, GC ViT with a 4-scale DINO detection head achieves a box AP of 58.3 on MS COCO dataset.
연구 동기 및 목표
- 비전 트랜스포머에서 단거리 및 장거리 공간 정보를 효율적으로 포착할 필요성을 동기화한다.
- 비용이 많이 드는 마스크나 시프트 없이 로컬 자기 주의와 글로벌 자기 주의가 교차하는 계층형 ViT를 제안한다.
- CNN과 같은 다운샘플링 모듈을 도입하여 귀납 편향을 주고 채널 간 의존성을 모델링한다.
- 전역 쿼리 제너레이터를 설계하여 전역 토큰을 생성하고 글로벌 주의 블록 간에 공유되도록 한다.
- 분류에서 최첨단 성능을 보여주고 탐지 및 분할에서 경쟁력 있는 하류 성능을 입증한다.
제안 방법
- 스테이지마다 해상도를 절반으로 줄이고 임베딩 차원을 두 배로 늘리는 계층형 GC ViT 아키텍처를 제안한다.
- 로컬 자기 주의(윈도우 내)와 글로벌 자기 주의(사전에 계산된 글로벌 쿼리 토큰를 통한) 블록을 번갈아 사용한다.
- 각 스테이지에서 전 이미지를 통해 글로벌 특징을 추출하고 로컬 키/값과의 상호 작용을 위해 형태를 재구성하는 글로벌 쿼리 제너레이터를 도입한다.
- SE와 GELU가 포함된 수정된 융합 MBConv 다운샘플링 블록을 도입하여 컨볼루션 귀납 편향과 채널 간 모델링을 제공합니다.
- 해상도를 감소시키되 정보를 보존하는 스트라이드 컨볼루션과 최대 풀링 단계를 갖춘 다운샘플러를 제공한다.
- GC ViT가 Swin Transformer와 비슷한 비용으로 작동하면서 글로벌 컨텍스트 모델링을 가능하게 하는 복잡도 분석을 제공한다.
실험 결과
연구 질문
- RQ1글로벌 컨텍스트 자기 주의가 공유 글로벌 쿼리 토큰을 통해 비싸거나 시프트가 필요한 방식 없이 ViT의 장거리 상호작용 모델링을 개선할 수 있는가?
- RQ2CNN에서 영감을 받은 다운샘플링과 글로벌 쿼리 제너레이터의 추가가 분류, 탐지 및 분할 전반에서 귀납 편향과 성능 향상을 제공하는가?
- RQ3GC ViT를 이미지 분류 및 다운스트림 작업으로 확장할 때 매개변수, FLOPs 및 정확도 간의 트레이드오프는 무엇인가?
주요 결과
- 51M, 90M, 201M 매개변수를 가진 GC ViT 변종은 사전 학습 없이 ImageNet-1K에서 Top-1 정확도 84.3%, 85.0%, 85.7%를 달성한다.
- GC ViT-T, -S, -B, -L 백본은 처음부터 학습했을 때 ImageNet-1K에서 경쟁적이거나 최첨단에 가까운 결과를 보인다.
- MS COCO에서 ImageNet 백본 사전 학습과 Cascade Mask R-CNN 헤드로 4-스케일 탐지 헤드와 함께 52.9 AP(박스), 45.8 AP(마스크)를 달성; ImageNet-21K + 4-스케일 DINO 헤드로 GC ViT-L이 58.3% 박스 AP에 도달한다.
- ADE20K에서 GC ViT 백본은 UPerNet 헤드와 단일 스케일 추론으로 49.2 mIoU를 달성한다.
- 윈도우 시프트 제거나 다운샘플링 제거가 성능 저하를 유발하고 CNN형 스템과 글로벌 자기 주의를 포함하면 분류, 탐지, 분할 전반에서 상당한 이득이 생긴다.
- ImageNet-21K 사전학습 후 파인튜닝으로 GC ViT-L이 86.6% top-1에 도달하며 Swin-L 및 ConvNeXt-L와의 이전전이에서 ImageNet-1K로의 전이시 경쟁력이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.