QUICK REVIEW

[논문 리뷰] Is Space-Time Attention All You Need for Video Understanding?

Gedas Bertasius, Heng Wang|arXiv (Cornell University)|2021. 02. 09.

Human Pose and Action Recognition참고 문헌 59인용 수 1,309

한 줄 요약

TimeSformer는 공간과 시간에 대한 자기 주의만을 사용하여 합성곱이 없는 비디오 분류기를 구축하며, 분리된 공간-시간 주의가 Kinetics 벤치마크에서 가장 높은 정확도를 제공합니다.

ABSTRACT

We present a convolution-free approach to video classification built exclusively on self-attention over space and time. Our method, named "TimeSformer," adapts the standard Transformer architecture to video by enabling spatiotemporal feature learning directly from a sequence of frame-level patches. Our experimental study compares different self-attention schemes and suggests that "divided attention," where temporal attention and spatial attention are separately applied within each block, leads to the best video classification accuracy among the design choices considered. Despite the radically new design, TimeSformer achieves state-of-the-art results on several action recognition benchmarks, including the best reported accuracy on Kinetics-400 and Kinetics-600. Finally, compared to 3D convolutional networks, our model is faster to train, it can achieve dramatically higher test efficiency (at a small drop in accuracy), and it can also be applied to much longer video clips (over one minute long). Code and models are available at: https://github.com/facebookresearch/TimeSformer.

연구 동기 및 목표

공간-시간 학습을 위한 자기 주의를 활용하여 합성곱 없이 비디오 모델링을 고무한다.
프레임 패치를 공간-시간 시퀀스의 토큰으로 취급하여 Vision Transformer (ViT)를 비디오로 확장한다.
효율적이고 정확한 비디오 분류 설계를 식별하기 위해 자기 주의 스킴을 체계적으로 비교한다.

제안 방법

비디오 클립을 프레임 수준 패치의 시퀀스로 표현하고 위치 인코딩이 포함된 토큰으로 임베딩한다.
공간-시간 이웃에 걸친 다중 헤드 자기 주의를 사용하여 비디오용 트랜스포머 인코더를 구성한다.
다섯 가지 공간-시간 주의 스킴(Space, Joint Space-Time, Divided Space-Time, Sparse Local Global, Axial)을 조사하고 성능과 효율성을 비교한다.
더 나은 정확도와 확장성을 위한 선호 스킴으로 Divided Space-Time Attention 설계(먼저 시간, 그다음 공간)를 채택한다.
ImageNet(1K 또는 21K)에서 프리트레인하고 비디오 데이터셋에서 미세조정하며; 정확도 및 학습/추론 비용 면에서 3D CNN 베이스라인과 비교한다.

실험 결과

연구 질문

RQ1합성곱 없이 자기 주의만으로도 비디오 이해를 위한 효과적인 공간-시간 표현을 학습할 수 있는가?
RQ2비디오 분류에서 정확도와 계산 효율성 사이의 최적 균형을 제공하는 공간-시간 주의 스킴은 어느 것인가?
RQ3TimeSformer가 Kinetics-400/600 및 Something-Something-V2와 같은 표준 벤치마크에서 3D CNN과 비교해 어떤 성능을 보이는가?
RQ4전처리 데이터 규모(ImageNet-1K vs ImageNet-21K)와 입력 길이/해상도가 TimeSformer 성능에 미치는 영향은 무엇인가?
RQ5전통적인 CNN 기반 방법과 비교하여 TimeSformer가 효율적인 장거리 비디오 모델링이 가능한가?

주요 결과

어텐션	매개변수	K400	SSv2
공간	85.9M	76.9	36.6
결합 공간-시간	85.9M	77.4	58.5
분리된 공간-시간	121.4M	78.0	59.5
희소 국소 전역	121.4M	75.9	56.3
축 방향	156.8M	73.5	56.2

Divided Space-Time Attention은 테스트된 스킴 중 Kinetics-400 및 Something-Something-V2에서 가장 높은 정확도를 달성한다.
TimeSformer의 분리된 주의는 공동 공간-시간 주의보다 정확도와 확장성이 더 높고, 특히 공간 해상도와 클립 길이가 증가함에 따라 그렇다.
TimeSformer는 Kinetics-400/600에서 경쟁력 혹은 최첨단 결과를 달성하는 동시에 유사한 3D CNN보다 추론 비용이 낮고 학습이 더 빨랗다.
ImageNet-21K에서의 프리트레이닝은 일반적으로 K400 결과를 향상시키며, SSv2도 ImageNet-1K/21K 프리트레이닝으로 유사한 이점을 얻는다.
TimeSformer는 비디오를 패치 시퀀스로 취급하여 최대 96 프레임의 더 긴 입력 클립과 확장 가능한 학습을 가능하게 하며, 종종 3D CNN보다 학습 효율에서 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.