[논문 리뷰] Multiscale Vision Transformers
Multiscale Vision Transformers (MViT) 는 비디오 및 이미지 인식을 위해 다중 스케일 피처 계층 구조를 트랜스포머와 융합하여, 대규모 사전 학습에 의존하는 동시대 ViTs에 비해 더 적은 계산으로 강력한 정확도를 달성합니다.
We present Multiscale Vision Transformers (MViT) for video and image recognition, by connecting the seminal idea of multiscale feature hierarchies with transformer models. Multiscale Transformers have several channel-resolution scale stages. Starting from the input resolution and a small channel dimension, the stages hierarchically expand the channel capacity while reducing the spatial resolution. This creates a multiscale pyramid of features with early layers operating at high spatial resolution to model simple low-level visual information, and deeper layers at spatially coarse, but complex, high-dimensional features. We evaluate this fundamental architectural prior for modeling the dense nature of visual signals for a variety of video recognition tasks where it outperforms concurrent vision transformers that rely on large scale external pre-training and are 5-10x more costly in computation and parameters. We further remove the temporal dimension and apply our model for image classification where it outperforms prior work on vision transformers. Code is available at: https://github.com/facebookresearch/SlowFast
연구 동기 및 목표
- dense visual signal structure를 다층 피처 계층 구조를 통해 트랜스포머 모델 내에서 활용하고자 한다는 연구 동기.
- 공간적 및 시간적 해상도를 감소시키면서 채널 용량을 점진적으로 증가시키는 다중 스케일 트랜스포머 아키텍처를 제안한다.
- 외부 사전 학습 없이 Kinetics, Charades, SSv2, AVA 등의 비디오 인식 벤치마크와 ImageNet의 이미지 분류에서 MViT를 평가한다.
- 정확도, 계산량(FLOPs), 매개변수 효율성 측면에서 MViT를 동시대 비전 트랜스포머와 비교한다.
제안 방법
- MHPA(Multi Head Pooling Attention) 를 도입하여 Q, K, V 시퀀스를 풀링함으로써 트랜스포머 블록 내에서 유연한 공간-시간 해상도를 가능하게 한다.
- 풀링 연산자 P를 커널, 스트라이드, 패딩으로 정의하여 시퀀스 길이를 줄이고 주의(attention) 계산 속도를 높인다.
- 각 스테이지가 공간-시간 해상도를 다운샘플링하면서 채널 용량을 확장하는 방식으로 네트워크를 구성한다.
- 풀링과 선형 레이어를 통해 차원 정렬을 맞추고 해상도 변화에 적응하는 스킵 연결을 활용한다.
- 특정 스테이지 구성, 해상도, 채널 증가를 갖춘 구체적인 MViT 변형(MViT-B, MViT-S 등)을 구현하여 정확도와 효율성의 균형을 맞춘다.
- ImageNet 사전 학습 없이 Kinetics에서 처음부터 학습하고 추론 FLOPs, 메모리, 정확도를 보고한다; ViT 베이스라인 및 다른 비디오 모델과 비교한다.
실험 결과
연구 질문
- RQ1MHPA를 통한 다중 스케일 피처 계층 구조의 도입이 비디오 인식 태스크에서 정확도와 효율성에 어떤 영향을 미치는가?
- RQ2MViT가 외부 대규모 사전 학습 없이도 동시대 비전 트랜스포머에 비해 경쟁력 있는 또는 우수한 성능을 달성할 수 있는가?
- RQ3MHPA와 같은 다중 스케일 시공간 커널을 사용할 때 비디오 트랜스포머의 시간 편향이 달라지는가?
- RQ4다중 스케일 설계가 Temporal 구성 요소가 없는 이미지 분류 태스크로 얼마나 잘 전달되는가?
주요 결과
- MViT는 외부 사전 학습 데이터를 사용하지 않으면서 동시대의 비디오 트랜스포머에 비해 상당한 성능 향상을 달성한다.
- MViT는 여러 ViT 기반 비디오 모델과 비교해 동일하거나 더 높은 정확도에서 계산량과 매개변수 수를 줄였다.
- Temporal 차원을 제거하여 이미지 분류에 아키텍처를 적용하면 기존 비전 트랜스포머보다 개선을 보인다.
- MHPA 기반의 다중 스케일 설계는 공간과 시간에서 밀집한 시각 신호의 효율적 모델링을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.