[논문 리뷰] A Survey on Visual Transformer
이 조사(서베이)에서는 backbone 학습, 고/중/저수준 비전, 저/비디오 작업에 걸친 비전 트랜스포머 모델을 검토하고, 장점, 한계 및 효율적 변형을 분석한다.
Transformer, first applied to the field of natural language processing, is a type of deep neural network mainly based on the self-attention mechanism. Thanks to its strong representation capabilities, researchers are looking at ways to apply transformer to computer vision tasks. In a variety of visual benchmarks, transformer-based models perform similar to or better than other types of networks such as convolutional and recurrent neural networks. Given its high performance and less need for vision-specific inductive bias, transformer is receiving more and more attention from the computer vision community. In this paper, we review these vision transformer models by categorizing them in different tasks and analyzing their advantages and disadvantages. The main categories we explore include the backbone network, high/mid-level vision, low-level vision, and video processing. We also include efficient transformer methods for pushing transformer into real device-based applications. Furthermore, we also take a brief look at the self-attention mechanism in computer vision, as it is the base component in transformer. Toward the end of this paper, we discuss the challenges and provide several further research directions for vision transformers.
연구 동기 및 목표
- Vision Transformer 모델의 개발을 적용 분야별로 백본, 고/중/저수준 비전, 비디오로 분류하여 조사한다.
- 자기 주의 메커니즘, 위치 인코딩, 아키텍처 변형 및 실제 기기 배포를 위한 효율성 방법을 분석한다.
- 비전 트랜스포머의 도전 과제, 트레이드오프 및 잠재적 연구 방향을 논의한다.
- 대표 모델 comparisons를 제공하고 향후 연구를 안내하기 위한 주요 발견을 요약한다.
제안 방법
- 표준 트랜스포머 구성요소와 self-attention 방정식 설명 (Attention(Q,K,V) = softmax(QK^T / sqrt(d_k)) V).
- ViT 및 이미지를 위한 트랜스포머를 적용하는 변형들 설명(패치 임베딩, 위치 인코딩, 클래스 토큰).
- 백본, 고/중/저수준 비전, 비디오 처리 모델 및 효율성 접근법 조사.
- 자기지도학습 및 생성적/자기지도학습 사전학습 방법(iGPT, MAE, SimMIM) 및 대조학습(MoCo v3) 요약.
- 가능한 경우 정량적 결과가 있는 CNN+트랜스포머 하이브리드와 순수 트랜스포머 백본 비교.
실험 결과
연구 질문
- RQ1비전 트랜스포머가 적용된 핵심 카테고리와 작업은 무엇인가?
- RQ2지역성, 효율성 및 성능을 개선하는 주요 아키텍처 변형과 기법은 무엇인가?
- RQ3비전 트랜스포머와 CNN의 정확도, 처리량, 데이터 효율성은 작업별로 어떻게 비교되는가?
- RQ4비전 트랜스포머를 위한 효과적인 사전학습 전략(감독, 자기지도학습, 생성적) 은 무엇인가?
- RQ5비전 트랜스포머의 미해결 과제와 향후 방향은 무엇인가?
주요 결과
| 모델 | 매개변수(M) | FLOPs(B) | 처리량(이미지/초) | Top-1 (%) |
|---|---|---|---|---|
| ResNet-50 | 25.6 | 4.1 | 1226 | 79.1 |
| ResNet-101 | 44.7 | 7.9 | 753 | 79.9 |
| ResNet-152 | 60.2 | 11.5 | 526 | 80.8 |
| EfficientNet-B0 | 5.3 | 0.39 | 2694 | 77.1 |
| EfficientNet-B1 | 7.8 | 0.70 | 1662 | 79.1 |
| EfficientNet-B2 | 9.2 | 1.0 | 1255 | 80.1 |
| EfficientNet-B3 | 12 | 1.8 | 732 | 81.6 |
| EfficientNet-B4 | 19 | 4.2 | 349 | 82.9 |
| DeiT-Ti | 5 | 1.3 | 2536 | 72.2 |
| DeiT-S | 22 | 4.6 | 940 | 79.8 |
| DeiT-B | 86 | 17.6 | 292 | 81.8 |
| T2T-ViT-14 | 21.5 | 5.2 | 764 | 81.5 |
| T2T-ViT-19 | 39.2 | 8.9 | 464 | 81.9 |
| T2T-ViT-24 | 64.1 | 14.1 | 312 | 82.3 |
| PVT-Small | 24.5 | 3.8 | 820 | 79.8 |
| PVT-Medium | 44.2 | 6.7 | 526 | 81.2 |
| PVT-Large | 61.4 | 9.8 | 367 | 81.7 |
| TNT-S | 23.8 | 5.2 | 428 | 81.5 |
| TNT-B | 65.6 | 14.1 | 246 | 82.9 |
| CPVT-S | 23 | 4.6 | 930 | 80.5 |
| CPVT-B | 88 | 17.6 | 285 | 82.3 |
| Swin-T | 29 | 4.5 | 755 | 81.3 |
| Swin-S | 50 | 8.7 | 437 | 83.0 |
| Swin-B | 88 | 15.4 | 278 | 83.3 |
| Twins-SVT-S | 24 | 2.9 | 1059 | 81.7 |
| Twins-SVT-B | 56 | 8.6 | 469 | 83.2 |
| Twins-SVT-L | 99.2 | 15.1 | 288 | 83.7 |
| Shuffle-T | 29 | 4.6 | 791 | 82.5 |
| Shuffle-S | 50 | 8.9 | 450 | 83.5 |
| Shuffle-B | 88 | 15.6 | 279 | 84.0 |
| CMT-S | 25.1 | 4.0 | 563 | 83.5 |
| CMT-B | 45.7 | 9.3 | 285 | 84.5 |
| VOLO-D1 | 27 | 6.8 | 481 | 84.2 |
| VOLO-D2 | 59 | 14.1 | 244 | 85.2 |
| VOLO-D3 | 86 | 20.6 | 168 | 85.4 |
| VOLO-D4 | 193 | 43.8 | 100 | 85.7 |
| VOLO-D5 | 296 | 69.0 | 64 | 86.1 |
- 비전 트랜스포머는 많은 시각 벤치마크에서 경쟁력 있는 혹은 우수한 성능을 보이며, 특정 설정에서 CNN에 근접하거나 이를 상회한다.
- ViT와 같은 순수 트랜스포머 백본은 CNN을 능가하기 위해 대규모 사전학습이 필요하며, DeiT 및 교차증류를 통해 데이터 효율이 개선된다.
- 지역성 향상 변형(TNT, Swin, RegionViT 등) 및 합성곱이 결합된 하이브리드(CvT, CvViT, LeViT)가 데이터 효율성과 실시간 성능을 개선한다.
- 자기지도학습 및 생성적 사전학습(iGPT, MAE, SimMIM, MoCo v3)은 적은 라벨 데이터로도 강력한 표현을 가능하게 한다.
- 효율적 트랜스포머 설계(windowed attention, 계층적 피라미드, NAS에서 영감을 받은 아키텍처)는 정확도, FLOPs 및 처리량의 균형을 이뤄 실제 배포에 적합하다.
- 벤치마크 비교에서 다양한 모델(예: DeiT, Swin, TNT, ViT 변형)이 ImageNet에서 상위 1% 정확도(79–86%)를 달성하며, 매개변수 수와 계산량은 다양하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.