[논문 리뷰] Visual Transformers: Token-based Image Representation and Processing for Computer Vision
논문은 Visual Transformers(VTs)를 도입합니다. 이는 컨볼루션 네트워크의 일부를 토큰 기반 트랜스포머로 대체하여, 컴팩트한 시맨틱 비주얼 토큰 세트에서 작동하면서 더 적은 FLOPs로 더 높은 정확도를 달성하고, 효율적인 분류 및 세분화를 가능하게 합니다.
Computer vision has achieved remarkable success by (a) representing images as uniformly-arranged pixel arrays and (b) convolving highly-localized features. However, convolutions treat all image pixels equally regardless of importance; explicitly model all concepts across all images, regardless of content; and struggle to relate spatially-distant concepts. In this work, we challenge this paradigm by (a) representing images as semantic visual tokens and (b) running transformers to densely model token relationships. Critically, our Visual Transformer operates in a semantic token space, judiciously attending to different image parts based on context. This is in sharp contrast to pixel-space transformers that require orders-of-magnitude more compute. Using an advanced training recipe, our VTs significantly outperform their convolutional counterparts, raising ResNet accuracy on ImageNet top-1 by 4.6 to 7 points while using fewer FLOPs and parameters. For semantic segmentation on LIP and COCO-stuff, VT-based feature pyramid networks (FPN) achieve 0.35 points higher mIoU while reducing the FPN module's FLOPs by 6.5x.
연구 동기 및 목표
- 시각 모델에서 중복성의 근본 원인으로서 픽셀 컨볼루션 패러다임을 재조명한다.
- 특성 맵을 소수의 시맨틱 비주얼 토큰 세트로 변환하는 토크나이저를 제안한다.
- 토큰 간 관계를 모델링하기 위해 토큰들을 트랜스포머로 연결한다.
- 토큰 간 상호작용을 다시 픽셀 공간으로 투영하여 작업별 예측에 활용한다.
- 분류 및 세분화 벤치마크에서 정확도 향상과 계산량 감소를 입증한다.
제안 방법
- 저수준 특징을 학습하기 위해 컨볼루션으로 입력을 처리한 다음, 특징 맵을 소수의 비주얼 토큰 세트로 토큰화한다 (L << HW).
- 콘텐츠 의존 어텐션 가중치를 가진 트랜스포머를 사용해 비주얼 토큰 간 상호작용을 모델링한다.
- 트랜스포머의 출력을 픽셀 공간으로 다시 투영해 다운스트림 작업을 위한 특징 맵을 보강한다.
- 토큰을 얻기 위해 필터 기반이거나 순환적일 수 있는 토크나이저를 사용한다(이전 토큰에 의한 토큰 의존성).
- VT-ResNets는 ResNet의 마지막 스테이지를 VT 모듈로 교체하여 16개의 토큰과 1024 채널 토큰 표현을 사용해 학습한다.
- 세분화를 위해 FPN을 VT-FPN으로 교체해 해상도 간 토큰 상호작용을 계산하고 다시 픽셀 공간으로 투영한다.
실험 결과
연구 질문
- RQ1토큰 기반 트랜스포머가 컴팩트한 시맨틱 토큰 공간에서 이미지 분류 및 세분화에서 전통적인 픽셀 공간 컨볼루션을 능가할 수 있는가?
- RQ2비주얼 토큰이 계산 비용을 줄이면서 장거리 시맨틱 관계를 더 잘 모델링하게 하나?
- RQ3순환적이고 콘텐츠에 민감한 토크나이저가 고정 필터 기반이거나 풀링 기반의 토크나이저보다 우수한가?
- RQ4토큰 상호작용을 피처 맵으로 다시 투영하는 것이 픽셀 수준 정보를 보존하고 작업 성능을 향상시키는가?
주요 결과
- ResNet의 마지막 스테이지를 VT 모듈로 교체하면 마지막 스테이지의 FLOPs가 최대 6.9배 감소하고 ImageNet 상위 1% 정확도가 4.6~7포인트 향상됩니다.
- VT 기반 ResNet은 대략 같은 매개변수 수이거나 더 적은 FLOPs에 대해 더 높은 검증 정확도를 달성합니다(예: VT-R18: 72.1% vs 69.9% 검증 정확도; VT-R34: 75.0% vs 73.3%).
- 세분화를 위한 VT 기반 FPN은 일반 FPN 모듈보다 6.4x~6.5x FLOPs 감소로 COCO-stuff/LIP에서 0.35 포인트 더 높은 mIoU를 달성합니다.
- 16개의 시각 토큰으로도 충분하며 토큰 수를 늘려도 이익이 미미합니다.
- 순환 토크나이저와 트랜스포머 기반 토큰 상호작용은 토큰 관계에 대해 풀링, 클러스터링 또는 그래프 합성보다 우수합니다.
- 토큰을 피처 맵으로 다시 투영하는 것은 성능에 이로우며 공간 정보를 보존해야 함을 확인합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.