[논문 리뷰] DAT++: Spatially Dynamic Vision Transformer with Deformable Attention
DAT++는 피라미드 비전 트랜스포머 내에 변형 가능한 다중-head 주의 메커니즘을 도입하여 유익한 영역에 초점을 맞추고, ImageNet, COCO, ADE20K에서 최첨단 결과를 달성합니다.
Transformers have shown superior performance on various vision tasks. Their large receptive field endows Transformer models with higher representation power than their CNN counterparts. Nevertheless, simply enlarging the receptive field also raises several concerns. On the one hand, using dense attention in ViT leads to excessive memory and computational cost, and features can be influenced by irrelevant parts that are beyond the region of interests. On the other hand, the handcrafted attention adopted in PVT or Swin Transformer is data agnostic and may limit the ability to model long-range relations. To solve this dilemma, we propose a novel deformable multi-head attention module, where the positions of key and value pairs in self-attention are adaptively allocated in a data-dependent way. This flexible scheme enables the proposed deformable attention to dynamically focus on relevant regions while maintains the representation power of global attention. On this basis, we present Deformable Attention Transformer (DAT), a general vision backbone efficient and effective for visual recognition. We further build an enhanced version DAT++. Extensive experiments show that our DAT++ achieves state-of-the-art results on various visual recognition benchmarks, with 85.9% ImageNet accuracy, 54.5 and 47.0 MS-COCO instance segmentation mAP, and 51.5 ADE20K semantic segmentation mIoU.
연구 동기 및 목표
- 데이터 의존적으로 키/값 샘플링 위치를 적응시키는 변형 가능한 주의 모듈 개발.
- 다양한 시각 인식 작업에 대해 확장 가능한 비전 백본(DAT)으로 변형 가능한 주의 구현.
- DAT를 DAT++로 강화하여 국소 인지 및 컨볼루션 정교화로 성능 향상.
- ImageNet 분류, MS-COCO 객체 검출/인스턴스 분할, ADE20K 의미 분할에서 최첨단 성능 입증.
제안 방법
- 공유된 왜곡된 키/값 샘플링 위치 세트를 입력마다 학습하는 오프셋 생성 네트워크를 통해 학습되는 변형 가능한 다중-head 주의(DMHA)를 제안합니다.
- 균일한 격자에서 기준점을 생성하고 쿼리 특징에서 학습 가능한 오프셋으로 이를 오프셋화한 후 쌍선형 보간으로 특징을 샘플링하여 변형된 키/값을 형성합니다.
- 변형된 k와 v로 주어진 q를 사용하여 주의를 계산하고 공간 인식을 위한 변형 가능 상대 위치 바이어스가 보강됩니다.
- DMHA의 복잡도를 분석하고 표준 주의에 비해 샘플링으로 인해 전체 밀집 키/값을 대체하기 때문에 선형 유사한 오버헤드를 보인다는 것을 보여줍니다.
- overlapped patch embedding, Local Perception Unit(LPU), ConvFFN 및 기타 컨볼루션 모듈로 백본을 강화하여 DAT++를 형성합니다.
- 초기 단계에서 로컬 및 변형 가능 주의 블록(Neighborhood Attention을 로컬 연산자로 사용)을 번갈아 배치하고 마지막 단계에서 변형 가능 주의가 우세합니다.
실험 결과
연구 질문
- RQ1변형 가능 주의를 비전 트랜스포머에 도입하되 메모리/계산 비용이 과도하지 않게 하는 방법은 무엇인가?
- RQ2데이터 의존적 샘플링 위치를 학습하는 것이 분류/검출/세그멘테이션 작업 전반에서 인식을 향상시키는가?
- RQ3DAT++가 ImageNet, COCO, ADE20K에서 최첨단 ViT 및 CNN과 비교해 더 나은 성능을 보일 수 있는가?
- RQ4DAT++의 성능에 가장 크게 기여하는 아키텍처 개편(중첩 패치 임베딩, LPU, ConvFFN)은 무엇인가?
주요 결과
- DAT++는 가장 큰 모델 변형(DAT-B++)에서 ImageNet의 Top-1 정확도 85.9%를 달성합니다.
- DAT++는 MS-COCO 인스턴스 분할에서 54.5 bbox mAP 및 47.0 mask mAP를 달성합니다.
- DAT++는 ADE20K 의미 분할에서 51.5 mIoU에 도달합니다.
- 변형 가능 주의 메커니즘은 데이터 의존적 초점을 가능하게 하면서도 선형에 가까운 공간 복잡도를 유지합니다.
- overlapped patch embedding 및 컨볼루션 강화로 로컬 특징 모델링 및 위치 정보가 개선되어 DAT++의 성능에 기여합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.