[논문 리뷰] UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer
UniFormerV2는 이미지 사전학습 ViT와 간결한 UniFormer 비디오 설계를 결합하여 시공간 표현을 학습하며, 8개의 비디오 벤치마크에서 SOTA를 달성하고 Kinetics-400에서 90.0% top-1을 달성합니다.
Learning discriminative spatiotemporal representation is the key problem of video understanding. Recently, Vision Transformers (ViTs) have shown their power in learning long-term video dependency with self-attention. Unfortunately, they exhibit limitations in tackling local video redundancy, due to the blind global comparison among tokens. UniFormer has successfully alleviated this issue, by unifying convolution and self-attention as a relation aggregator in the transformer format. However, this model has to require a tiresome and complicated image-pretraining phrase, before being finetuned on videos. This blocks its wide usage in practice. On the contrary, open-sourced ViTs are readily available and well-pretrained with rich image supervision. Based on these observations, we propose a generic paradigm to build a powerful family of video networks, by arming the pretrained ViTs with efficient UniFormer designs. We call this family UniFormerV2, since it inherits the concise style of the UniFormer block. But it contains brand-new local and global relation aggregators, which allow for preferable accuracy-computation balance by seamlessly integrating advantages from both ViTs and UniFormer. Without any bells and whistles, our UniFormerV2 gets the state-of-the-art recognition performance on 8 popular video benchmarks, including scene-related Kinetics-400/600/700 and Moments in Time, temporal-related Something-Something V1/V2, untrimmed ActivityNet and HACS. In particular, it is the first model to achieve 90% top-1 accuracy on Kinetics-400, to our best knowledge. Code will be available at https://github.com/OpenGVLab/UniFormerV2.
연구 동기 및 목표
- 실용적인 패러다임을 제시하여 UniFormer 스타일의 비디오 블록으로 Open-Image-Pretrained ViT를 강화해 강력한 비디오 모델을 구축하려는 동기 부여.
- 정확도와 계산량의 균형을 잡기 위한 로컬 및 글로벌 관계 집계기 설계.
- 다중 스케일 시공간 표현을 통합하기 위한 다단계 융합 enable.
- 다양한 벤치마크(Kinetics-400/600/700, Moments in Time, Something-Something V1/V2, ActivityNet, HACS)에서 접근 방식 검증.
- 통합된 사전학습 후 벤치마크(Kinetics-710)에서 효과성 입증
제안 방법
- ViT 블록 앞에 로컬 시간 MHRA를 삽입하여 프리트레이닝된 공간 특징을 활용하면서도 시간적 중복을 줄이는 로컬 UniBlock 도입.
- 로컬 블록 각각 위에 쿼리 기반 크로스 MHRA를 사용한 글로벌 UniBlock을 추가하여 토큰을 선형 시간 복잡도로 비디오 토큰으로 요약.
- 여러 단계의 글로벌 토큰을 결합해 최종 비디오 표현으로 통합하는 다단계 융합 블록 사용.
- UniFormer의 MHRA를 재사용 및 재적응하여 로컬 LT_MHRA와 글로벌 GS_MHRA를 통한 효율적 시공간 모델링.
- 입력을 3D 합성곱으로 시공간 토큰으로 프로젝션하고; 시간적으로 다운샘플링; 로컬 및 글로벌 UniBlocks 적용; 다단계 출력 융합; 필요 시 클래스 토큰과의 최종 융합.
- 네 가지 융합 전략(Sequential, Parallel, Hierarchical KV, Hierarchical Q)을 탐색하여 여러 단계의 글로벌 토큰을 결합
실험 결과
연구 질문
- RQ1이미지 사전학습 ViTs를 UniFormer 스타일의 비디오 설계와 효과적으로 결합하여 시공간 학습을 개선할 수 있는가?
- RQ2표준 벤치마크에서 UniFormerV2가 기존 비디오 모델과 비교하여 정확도-효율성 트레이드오프는 어떤가?
- RQ3다단계 글로벌 토큰 융합이 최종 비디오 표현에 어떤 영향을 미치는가?
- RQ4Kinetics-710에서의 포스트-프리트레이닝이 Kinetics-400/600/700, MiT 및 다른 데이터셋에 일관된 이점을 주는가?
- RQ5제안된 크로스 MHRA 글로벌 블록이 성능을 유지하거나 향상시키면서 계산 효율적인가?
주요 결과
- Kinetics-400/600/700, Moments in Time, Something-Something V1/V2, ActivityNet, HACS를 포함한 8개의 인기 비디오 벤치마크에서 최첨단 성능 달성.
- Kinetics-400에서 90.0% top-1 정확도에 도달한 최초의 모델.
- 데이터셋 전반에 걸쳐 강력한 성능과 우수한 정확도-매개변수 및 FLOP 트레이드오프를 지속적으로 보임.
- Kinetics-710에서 포스트-프리트레이닝은 강력한 전이 능력을 가능하게 하며 추가 미세조정은 최소한으로도 충분함( K400/600/700 전반에 걸쳐 시연).
- 이미지 프리트레이닝된 ViT를 UniFormer 설계와 결합하면 비디오 작업에 필요한 광범위한 이미지 프리트레이닝 없이도 강력한 시공간 표현이 얻어짐을 보여줌
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.