[논문 리뷰] An Image is Worth 16x16 Words, What is a Video Worth?
본 논문은 STAM을 도입합니다. STAM은 공간적 및 시간적 자기 주의를 이용해 균일하게 샘플링된 희소 프레임 집합에서 동작을 인식하는 전적으로 트랜스포머 기반의 비디오 행동 인식 모델로, 훨씬 적은 수의 프레임과 훨씬 빠른 추론 속도에도 최첨단에 근접한 정확도를 달성합니다.
Leading methods in the domain of action recognition try to distill information from both the spatial and temporal dimensions of an input video. Methods that reach State of the Art (SotA) accuracy, usually make use of 3D convolution layers as a way to abstract the temporal information from video frames. The use of such convolutions requires sampling short clips from the input video, where each clip is a collection of closely sampled frames. Since each short clip covers a small fraction of an input video, multiple clips are sampled at inference in order to cover the whole temporal length of the video. This leads to increased computational load and is impractical for real-world applications. We address the computational bottleneck by significantly reducing the number of frames required for inference. Our approach relies on a temporal transformer that applies global attention over video frames, and thus better exploits the salient information in each frame. Therefore our approach is very input efficient, and can achieve SotA results (on Kinetics dataset) with a fraction of the data (frames per video), computation and latency. Specifically on Kinetics-400, we reach $80.5$ top-1 accuracy with $ imes 30$ less frames per video, and $ imes 40$ faster inference than the current leading method. Code is available at: https://github.com/Alibaba-MIIL/STAM
연구 동기 및 목표
- 증가하는 비디오 데이터 양 속에서 효율적인 비디오 행동 인식을 동기화합니다.
- 3D 합성을 사용하지 않고 시공간 정보를 모델링하는 완전한 트랜스포머 기반 접근법을 개발합니다.
- 입력 프레임 수를 줄이면서도 상태 최첨단 정확도 유지 또는 상회.
- 클립 기반 3D CNN 방법에 비해 엔드 투 엔드 학습 가능성과 실용적 추론 이점을 시연합니다.
제안 방법
- 프레임을 문장으로, 패치를 단어로 간주하는 비전 트랜스포머 개념을 비디오에 확장합니다.
- 공간 및 시간 트랜스포머를 분리한 Space Time Attention Model(STAM)을 제안합니다.
- 프레임 내 패치에 대한 공간 주의를 통해 프레임 수준 임베딩을 계산한 다음, 프레임 간 시계열 트랜스포머로 시간적 의존성을 모델링합니다.
- 프레임당 분류 토큰과 최종 비디오 수준 토이키나저를 사용해 예측을 생성합니다.
- 복잡도를 관리 가능하게 유지하기 위한 계산적으로 효율적인 해리된 시공간 주의(attention) 방법을 제공합니다(O(FN^2 + F^2)).
- 사전 학습된 공간 백본(ViT-B/ViT 계열)을 활용하면서 시간 트랜스포머 구성요소를 처음부터 학습합니다.
실험 결과
연구 질문
- RQ1완전한 트랜스포머 기반 모델이 희소 프레임 샘플링에서 긴 범위의 시공간 의존성을 비디오에서 포착할 수 있는가?
- RQ2공간과 시간 주의를 분리하는 것이 결합된 시공간 주의보다 효율성과 정확도를 향상시키는가?
- RQ3STAM은 현저히 적은 프레임 수를 사용할 때 최첨단 3D CNN 대비 어떤 성능을 보이는가?
- RQ4Kinetics-400과 같은 벤치마크에서 프레임 수, 정확도, 추론 속도 간의 트레이드오프는 무엇인가?
주요 결과
- STAM은 훨씬 적은 프레임(예: 16 프레임)으로도 최첨단에 버금가는 정확도와 훨씬 빠른 추론을 달성합니다.
- Kinetics-400에서 16 프레임을 사용한 STAM은 79.3%의 top-1 정확도와 270 GFLOPs를 달성하고, 64 프레임에서는 1080 GFLOPs로 80.5%에 도달합니다.
- X3D‑L과 비교할 때 STAM은 정확도(79.3% 대 77.5%)를 더 높이고 연산은 훨씬 낮으며(270 GFLOPs 대 744 GFLOPs), 검증 세트에서 추론 속도는 현저히 빠릅니다(0.05 hrs 대 2.27 hrs).
- STAM은 16 프레임으로 단일 GPU에서 VPS(Frames Per Second)에서 X3D-L보다 43배 빠르게 작동합니다.
- 시간 주의는 공간 전용 모델 대비 의미 있는 정확도 향상을 제공하며, 서로 다른 백본을 사용해도 시간 트랜스포머를 통해 일관된 이득을 보여줍니다.
- 16에서 32 또는 64로 프레임을 늘리면 정확도 상승이 약 0.6%의 두 배당 증가 정도로 제한되며, 추가 프레임 수가 선형적으로 성능을 향상시키지 않습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.