Skip to main content
QUICK REVIEW

[논문 리뷰] Space-time Mixing Attention for Video Transformer

Adrian Bulat, Juan-Manuel Pérez-Rúa|arXiv (Cornell University)|2021. 06. 10.
Advanced Vision and Imaging참고 문헌 45인용 수 57
한 줄 요약

공간-시간 혼합 어텐션을 갖춘 비디오 트랜스포머를 제안하며, 프레임 수에 따른 선형 확장을 달성하기 위해 시간 어텐션을 로컬 윈도우로 제한하고 공간-시간 정보를 효율적으로 혼합하며, 경량의 시간 축 집계 메커니즘을 도입합니다.

ABSTRACT

This paper is on video recognition using Transformers. Very recent attempts in this area have demonstrated promising results in terms of recognition accuracy, yet they have been also shown to induce, in many cases, significant computational overheads due to the additional modelling of the temporal information. In this work, we propose a Video Transformer model the complexity of which scales linearly with the number of frames in the video sequence and hence induces no overhead compared to an image-based Transformer model. To achieve this, our model makes two approximations to the full space-time attention used in Video Transformers: (a) It restricts time attention to a local temporal window and capitalizes on the Transformer's depth to obtain full temporal coverage of the video sequence. (b) It uses efficient space-time mixing to attend jointly spatial and temporal locations without inducing any additional cost on top of a spatial-only attention model. We also show how to integrate 2 very lightweight mechanisms for global temporal-only attention which provide additional accuracy improvements at minimal computational cost. We demonstrate that our model produces very high recognition accuracy on the most popular video recognition datasets while at the same time being significantly more efficient than other Video Transformer models. Code will be made available.

연구 동기 및 목표

  • 비디오 트랜스포머에서 전체 공간-시간 어텐션의 계산 병목 현상을 해결한다.
  • 로컬 시간 창과 공간-시간 혼합 메커니즘을 제안하여 O(TS^2) 복잡도를 달성한다.
  • 동시대의 비디오 트랜스포머 대비 FLOPs를 감소시키면서 정확도를 유지하거나 향상시킨다.
  • 경량의 글로벌 시간 어텐션과 요약 토큰을 통해 효율적인 시간 축 집계를 가능하게 한다.

제안 방법

  • 공간 및 시간 위치 인코딩을 갖춘 프레임당 패치 기반 토큰 임베딩을 계산한다.
  • 로컬 시간 창 어텐션 도입: y^l_{s,t} = sum_{t' in window} sum_s' Softmax(q^l_{s,t}·k^l_{s',t'}) v^l_{s',t'}.
  • 여러 인접 프레임으로부터 단일 응답된 키 벡터를 구성하여 공간-시간 혼합을 구현하기 위한 시프트 트릭을 적용한다 (Eq. 9–10).
  • 레이어당 복잡도 O(TS^2)를 달성하여 공간만 어텐션 비용에 상응한다.
  • 정확도를 높이기 위해 클래스 토큰에 경량 글로벌 시간 어텐션(Temporal Attention)을 선택적으로 통합한다.
  • 프레임 정보를 요약하는 Summary 토큰 메커니즘을 탐색하고 key/value 계산 중에 그것에 주의(attend)하도록 한다.

실험 결과

연구 질문

  • RQ1로컬 시간 창과 공간-시간 혼합이 비디오 트랜스포머에서 전체 공간-시간 어텐션을 효율적으로 근사할 수 있는가?
  • RQ2제안된 어텐션 방식이 기존 비디오 트랜스포머 대비 FLOPs를 유지하거나 감소시키면서 경쟁력 있는 정확도를 유지하는가?
  • RQ3로컬 윈도우 크기, TA 레이어 배치, 그리고 시간 축 집계가 성능에 미치는 영향은 무엇인가?
  • RQ4경량의 시간 축 집계와 Summary 토큰이 최소 비용으로 의미 있는 향상을 제공하는가?

주요 결과

  • 레이어당 O(TS^2) 복잡도를 달성하여 공간만 어텐션과 일치하면서 다른 효율성 중심의 비디오 트랜스포머보다 성능이 앞선다.
  • 테스트 설정 중 최적의 로컬 윈도우 크기 t_w = 1이며, t_w = 0(공간만) 대비 큰 이득을 보이고 경계 효과로 인해 t_w = 2에서 다소 저하가 발생한다.
  • 키와 밸류 벡터에 공간-시간 혼합을 적용하면 혼합 변형들 중 가장 큰 정확도 향상을 얻는다.
  • 하나의 Temporal Attention 레이어를 사용한 시간 축 집계는 단순 시간 평균에 비해 Top-1을 약 2%포인트 향상시키며, 더 많은 TA 레이어는 추가 이점을 제공하지 않는다.
  • SSv2, Kinetics-400, Kinetics-600, Epic Kitchens에서 X-ViT는 기존 최첨단과 대등하거나 이를 능가하면서 TimeSformer 및 ViViT 계열에 비해 현저히 더 효율적이다.
  • 입력 프레임을 8에서 16으로 늘리면 SSv2에서 약 1.8%의 Top-1 이득이 생기고, 32 프레임은 더 작은 추가 이득을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.