[논문 리뷰] CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention
CrossFormer는 크로스스케일 임베딩 레이어(Cross-scale Embedding Layer, CEL)와 장단거리 주의 메커니즘(Long Short Distance Attention, LSDA)를 통해 크로스스케일 주의를 가능하게 하는 비전 트랜스포머 아키텍처를 제안한다. 이는 다양한 공간 스케일 간의 특징을 효과적으로 모델링할 수 있도록 하며, 소규모 및 대규모 특징을 유지하고 동적 위치 편향을 통합함으로써 객체 검출 및 세분화 작업에서 최고 성능을 달성한다.
Transformers have made much progress in dealing with visual tasks. However, existing vision transformers still do not possess an ability that is important to visual input: building the attention among features of different scales. The reasons for this problem are two-fold: (1) Input embeddings of each layer are equal-scale without cross-scale features; (2) Some vision transformers sacrifice the small-scale features of embeddings to lower the cost of the self-attention module. To make up this defect, we propose Cross-scale Embedding Layer (CEL) and Long Short Distance Attention (LSDA). In particular, CEL blends each embedding with multiple patches of different scales, providing the model with cross-scale embeddings. LSDA splits the self-attention module into a short-distance and long-distance one, also lowering the cost but keeping both small-scale and large-scale features in embeddings. Through these two designs, we achieve cross-scale attention. Besides, we propose dynamic position bias for vision transformers to make the popular relative position bias apply to variable-sized images. Based on these proposed modules, we construct our vision architecture called CrossFormer. Experiments show that CrossFormer outperforms other transformers on several representative visual tasks, especially object detection and segmentation. The code has been released: this https URL.
연구 동기 및 목표
- 기존 비전 트랜스포머가 일반적으로 각 레이어에서 단일 스케일의 특징만 처리하는 점을 감안해, 크로스스케일 특징 모델링의 부족을 해결하기 위해.
- 계산 비용을 증가시키지 않으면서도 소규모 및 대규모 특징을 자기주의 메커니즘에서 유지하기 위해.
- 변형 가능한 크기의 입력 이미지에 대해 상대적 위치 편향이 일반화되도록 하기 위해 동적 위치 편향을 도입하기 위해.
- 다양한 스케일의 표현을 효과적으로 통합할 수 있는 통합된 비전 트랜스포머 아키텍처를 설계하여 시각적 이해 능력을 향상시키기 위해.
제안 방법
- 크로스스케일 임베딩 레이어(Cross-scale Embedding Layer, CEL)는 여러 패치 스케일의 특징을 하나의 임베딩으로 융합하여 크로스스케일 표현 학습을 가능하게 한다.
- 장단거리 주의 메커니즘(Long Short Distance Attention, LSDA)은 자기주의를 단거리 및 장거리 구성요소로 분해함으로써 스케일 간의 특징 무결성을 유지하면서도 계산 비용을 감소시킨다.
- 동적 위치 편향을 도입하여 상대적 위치 편향이 변형 가능한 크기의 입력에 적응하도록 하여 비전 트랜스포머의 일반화 능력을 향상시킨다.
- CEL과 LSDA를 통합한 유일한 트랜스포머 백본을 설계하여 CrossFormer를 구성하였으며, 이는 시각 작업 최적화를 위해 설계되었다.
- 표준 비전 벤치마크와 표준 학습 프로토콜을 기반으로 모델을 엔드 투 엔드로 훈련시켰다.
실험 결과
연구 질문
- RQ1비전 트랜스포머가 다양한 공간 스케일 간의 특징에 효과적으로 주의를 기울일 수 있는가?
- RQ2자기주의 메커니즘에서 계산 복잡도를 증가시키지 않고도 다중 스케일 특징 표현을 유지할 수 있는가?
- RQ3비전 트랜스포머에서 변형 가능한 크기의 이미지 입력에 대해 상대적 위치 편향을 어떻게 적응시킬 수 있는가?
- RQ4크로스스케일 주의가 객체 검출 및 세분화 작업 성능에 얼마나 기여하는가?
주요 결과
- CrossFormer는 객체 검출 및 인스턴스 세분화 벤치마크에서 기존 비전 트랜스포머를 능가하는 최고 수준의 성능을 달성한다.
- CEL과 LSDA를 통한 크로스스케일 주의 통합은 특히 미세한 시각 작업에서 뚜렷한 정확도 향상을 이끌어낸다.
- 동적 위치 편향은 다양한 입력 크기 간의 효과적인 일반화를 가능하게 하여 실제 환경에서의 강인성을 향상시킨다.
- 계산 효율성을 유지하면서도 다양한 스케일 간의 특징 표현을 향상시켜, 다양한 시각 작업 전반에서 일관된 성능 향상을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.