[논문 리뷰] Video Swin Transformer
이 논문은 비디오 인식을 위한 순수 트랜스포머 백본인 Video Swin Transformer를 제안한다. 3D 이동 창 주의(attention)를 통한 시공간적 지역성을 활용하여 핵심 비디오 벤치마크에서 최첨단 성능을 달성하는 한편, 더 효율적이고 이미지 사전 학습과의 호환성을 보인다.
The vision community is witnessing a modeling shift from CNNs to Transformers, where pure Transformer architectures have attained top accuracy on the major video recognition benchmarks. These video models are all built on Transformer layers that globally connect patches across the spatial and temporal dimensions. In this paper, we instead advocate an inductive bias of locality in video Transformers, which leads to a better speed-accuracy trade-off compared to previous approaches which compute self-attention globally even with spatial-temporal factorization. The locality of the proposed video architecture is realized by adapting the Swin Transformer designed for the image domain, while continuing to leverage the power of pre-trained image models. Our approach achieves state-of-the-art accuracy on a broad range of video recognition benchmarks, including on action recognition (84.9 top-1 accuracy on Kinetics-400 and 86.1 top-1 accuracy on Kinetics-600 with ~20x less pre-training data and ~3x smaller model size) and temporal modeling (69.6 top-1 accuracy on Something-Something v2). The code and models will be made publicly available at https://github.com/SwinTransformer/Video-Swin-Transformer.
연구 동기 및 목표
- 비디오에 대한 지역성 편향 Transformer 백본을 동기화하여 속도-정확도 트레이드를 개선한다.
- Swin Transformer의 귀납적 편향(지역성, 계층화, 평행이동 불변성)을 시공간 맥락에서 활용한다.
- 지역성 기반 비디오 트랜스포머가 전역 주의 모델보다 적은 계산량과 데이터로도 더 나은 성능을 발휘할 수 있음을 보여준다.
- 사전 학습된 이미지 모델을 사용하여 다수의 비디오 인식 벤치마크에서 최첨단 성능을 달성한다.
제안 방법
- 2D에서 비정 overlapping 로컬 어텐션을 확장하여 Swin Transformer를 비디오에 맞게 조정한다.
- 효율성을 유지하면서 창 간 연결을 가능하게 하는 3D Shifted Window 기반 다중-헤드 자기주식(3DW-MSA)을 구현한다.
- 로컬 3D 창 내 어텐션을 강화하기 위해 3D 상대 위치 바이어스를 도입한다.
- 패치 합병을 통한 계층적 아키텍처를 유지하고 시간 차원 하향 샘플링 없이 다중 스케일 비디오 표현을 가능하게 한다.
- ImageNet 사전 학습 모델에서의 초기화 전략을 탐구하고 일반화에 도움이 되도록 백본/헤드 학습률 비율을 분석한다.
실험 결과
연구 질문
- RQ13D shifted window 주의를 통한 시공간 지역성이 비디오 트랜스포머에서 전역 자기주의를 효율적으로 근사할 수 있는가?
- RQ2Video Swin Transformer가 액션 인식 및 시간 모델링 벤치마크에서 최첨단 방법과 비교하여 어떤 성능을 보이는가?
- RQ3사전 학습된 이미지 모델을 백본에 사용하기 위한 초기화 및 최적화 전략은 무엇이 가장 효과적인가?
- RQ4시간 차원, 창 설계, 학습률 스케줄링의 영향력을 보여주는 어떤 차등 실험이 성능에 미치는 영향을 어떻게 나타내는가?
주요 결과
- Kinetics-400에서 상위 1% 84.9%, Kinetics-600에서 상위 1% 86.1%를 달성하였고 ViViT-H에 비해 약 20배 덜한 사전 학습 데이터와 약 3배 더 작은 모델 크기로 달성하였다.
- Something-Something v2에서 상위 1% 69.6%를 달성하며 강력한 시간 모델링을 입증하였다.
- 공동 시공간 지역성(3D W-MSA)이 분해된 설계(joint vs split vs factorized) 중에서 최적의 속도-정확도 트레이드오프를 제공한다.
- 3D 이동 창 전략과 상대 위치 바이어스가 창 간 연결에 기여하고 성능 향상을 가져온다.
- ImageNet-21K에서의 사전 학습과 보수적인 백본 학습률 스케일링이 일반화와 효율성을 높인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.