[논문 리뷰] UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning
UniFormer는 3D 합성곱과 시공간 자기주의를 하나의 트랜스포머로 통합하여 비디오 표현의 지역적 중복성과 글로벌 의존성을 효율적으로 학습하고, 훨씬 적은 GFLOPs로 강한 정확도를 달성합니다.
It is a challenging task to learn rich and multi-scale spatiotemporal semantics from high-dimensional videos, due to large local redundancy and complex global dependency between video frames. The recent advances in this research have been mainly driven by 3D convolutional neural networks and vision transformers. Although 3D convolution can efficiently aggregate local context to suppress local redundancy from a small 3D neighborhood, it lacks the capability to capture global dependency because of the limited receptive field. Alternatively, vision transformers can effectively capture long-range dependency by self-attention mechanism, while having the limitation on reducing local redundancy with blind similarity comparison among all the tokens in each layer. Based on these observations, we propose a novel Unified transFormer (UniFormer) which seamlessly integrates merits of 3D convolution and spatiotemporal self-attention in a concise transformer format, and achieves a preferable balance between computation and accuracy. Different from traditional transformers, our relation aggregator can tackle both spatiotemporal redundancy and dependency, by learning local and global token affinity respectively in shallow and deep layers. We conduct extensive experiments on the popular video benchmarks, e.g., Kinetics-400, Kinetics-600, and Something-Something V1&V2. With only ImageNet-1K pretraining, our UniFormer achieves 82.9%/84.8% top-1 accuracy on Kinetics-400/Kinetics-600, while requiring 10x fewer GFLOPs than other state-of-the-art methods. For Something-Something V1 and V2, our UniFormer achieves new state-of-the-art performances of 60.9% and 71.2% top-1 accuracy respectively. Code is available at https://github.com/Sense-X/UniFormer.
연구 동기 및 목표
- 고차원 비디오 데이터의 효율적 시공간 학습을 위해 로컬 중복성과 장거리 의존성을 해결한다.
- 로컬 3D-합성곱 유사 연산과 글로벌 자기주의를 결합한 통합 트랜스포머(UniFormer)를 태스크에 최적화된 아키텍처로 제안한다.
- 얕은 및 깊은 계층에서 각각 로컬 및 글로벌 토큰 관계를 처리하는 다층 헤드 관계 집계기(MHRA) 설계.
- Kinetics-400/600 및 Something-Something V1/V2에서 GFLOPs를 줄이면서 최첨단 성능을 보여준다.
- 통합 어텐션, 다이나믹 포지션 임베딩, 스테이징의 효과를 이해하기 위한 제거 실험 및 분석을 제공한다.
제안 방법
- Dynamic Position Embedding(DPE), Multi-Head Relation Aggregator(MHRA), 및 Feed-Forward Network(FFN)로 구성된 UniFormer 블록을 도입한다.
- MHRA는 얕은 계층에서 시공간 합성에 유사한 로컬 토큰 친화 매트릭스를 통해 로컬 관계를 학습하고, 깊은 계층에서 콘텐츠 기반 유사도(Q/K)에 의해 전역 관계를 학습하여 자기주류 같은 방식으로 작동한다.
- DPE는 3D depthwise convolution을 사용해 조건부 위치 인코딩을 확장하여 시공간 순서를 유지하고 가변 클립 길이를 처리한다.
- 초기 단계에서 로컬 MHRA를 Stage-wise로 적용하고 후반 단계에서 글로벌 MHRA를 적용하는 네 단계의 계층적 네트워크로 UniFormer 블록을 쌓아 시공간 맥락을 공동으로 모델링한다.
- 로컬 MHRA를 PWConv-DWConv-PWConv 블록으로 보는 합성곱 유사 해석을 제공하고 순수하게 어텐션 기반 설계에 비해 효율 향상을 시연한다.
- ImageNet-1K 사전학습을 통해 Kinetics-400/600 및 Something-Something V1/V2에서 실험 결과를 보여주며, 상당히 낮은 GFLOPs로 높은 정확도를 달성한다.
실험 결과
연구 질문
- RQ1통합 트랜스포머 구조가 로컬 시공간 중복 감소와 글로벌 의존성 모델링을 함께 최적화하여 효율적 비디오 이해를 달성할 수 있는가?
- RQ2단일 MHRA 모듈에서 3D-합성곱 유사 로컬 관계와 글로벌 자기주의를 결합하는 것이 기존 비디오 트랜스포머보다 계산-정확도 트레이드오프를 개선하는가?
- RQ3다이나믹 포지션 임베딩과 블록 수준 설계 선택(초기 단계의 로컬 MHRA 대 후반의 글로벌 MHRA)이 성능과 전달성에 어떤 영향을 미치는가?
- RQ4사전학습, 입력 튜브 크기, 샘플링 전략이 UniFormer의 견고성과 전달학습에 어떤 영향을 주는가?
- RQ5UniFormer가 표준 비디오 벤치마크(Kinetics-400/600, Something-Something V1/V2)에서 최첨단 방법과 비교해 어떤 성능을 보이는가?
주요 결과
| 방법 | 사전학습 | #프레임 | GFLOPs | K400 Top-1 | K400 Top-5 | K600 Top-1 | K600 Top-5 |
|---|---|---|---|---|---|---|---|
| Our UniFormer-S | IN-1K | 16 × 1 × 4 | 167 | 80.8 | 94.7 | 82.8 | 95.8 |
| Our UniFormer-S | IN-1K | 16 × 3 × 1 | 125 | 57.6 | 84.9 | 69.4 | 92.1 |
| Our UniFormer-B | IN-1K | 16 × 3 × 1 | 290 | 60.9 | 87.3 | 71.2 | 92.8 |
| Our UniFormer-B | IN-1K | 32 × 3 × 1 | 777 | 61.0 | 87.6 | 71.2 | 92.8 |
| Our UniFormer-B | IN-1K | 32 × 3 × 4 | 3108 | 83.0 | 95.4 | 84.9 | 96.7 |
- ImageNet-1K 사전학습과 함께 Kinetics-400에서 82.9% 상위1(top-1), Kinetics-600에서 84.8%를 달성하고 다른 많은 SOTA 방법 대비 10배 더 적은 GFLOPs를 기록한다.
- Something-Something V1에서 상위1 60.9%, V2에서 상위1 71.2%로 기존의 최첨단을 능가한다.
- 얕은 계층의 로컬 MHRA는 로컬 중복을 낮은 계산으로 효과적으로 감소시키고, 깊은 계층의 글로벌 MHRA는 긴 거리 의존성을 높은 판별력으로 포착한다.
- 시공간 MHRA의 결합은 분리된 공간/시간 주의보다 우수한 성능 전달과 전이 학습 성능 향상을 보인다.
- 다이나믹 포지션 임베딩(DPE)은 시공간 위치 정보를 인코딩하여 정확도를 향상시키며(Kinetics-400에서 최대 약 1.7% 상위1),
- 초기 단계에서 로컬 MHRA를, 후반 단계에서 글로벌 MHRA를 사용하는 구성의 제거를 통해 균형 잡힌 성능이 우수하며, 순수 로컬 또는 순수 글로벌 구성보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.