Skip to main content
QUICK REVIEW

[논문 리뷰] Two-Stream temporal transformer for video action classification

Nattapong Kurpukdee, Adrian G. Borş|arXiv (Cornell University)|2026. 01. 20.
Human Pose and Action Recognition인용 수 0
한 줄 요약

두 흐름 비디오 분류기를 도입하여 트랜스포머 백본으로 콘텐츠(RGB 프레임)와 움직임(광류)을 함께 모델링하고 자기-주의를 통해 UCF101, HMDB51, Something-Something V2에서 강력한 결과를 달성합니다.

ABSTRACT

Motion representation plays an important role in video understanding and has many applications including action recognition, robot and autonomous guidance or others. Lately, transformer networks, through their self-attention mechanism capabilities, have proved their efficiency in many applications. In this study, we introduce a new two-stream transformer video classifier, which extracts spatio-temporal information from content and optical flow representing movement information. The proposed model identifies self-attention features across the joint optical flow and temporal frame domain and represents their relationships within the transformer encoder mechanism. The experimental results show that our proposed methodology provides excellent classification results on three well-known video datasets of human activities.

연구 동기 및 목표

  • 콘텐츠와 모션 표현 간의 트랜스포머 기반 자기-주의를 활용하여 비디오 동작 인식을 개선하려는 동기를 제시한다.
  • 프레임 기반 특성과 광류 특성을 통합하는 두 스트림 트랜스포머 아키텍처를 제안한다.
  • 표준 벤치마크에서의 성능을 평가하고 최첨단의 두 스트림 및 트랜스포머 기반 방법과 비교한다.

제안 방법

  • consecutive 프레임 간 광류를 신경망 기반 광류 모델(RAFT)로 예측한다.
  • RGB 프레임과 예측된 광류를 모두 입력으로 삼아 시공-시간 자기-주의를 학습하는 트랜스포머 인코더를 처리한다.
  • 두 스트림 트랜스포머 입력 스키마를 통해 두 흐름을 융합하고 다중 헤드 어텐션을 적용하여 공동 표현 학습을 수행한다.
  • MViTv1/MViTv2/Swin의 사전 학습 비디오 트랜스포머 백본을 시계열 특징 추출기로 사용하고 8-헤드 MHA와 768채널 최종 특징으로 적응시킨다.
  • 교차 엔트로피 손실로 학습하고 드롭아웃을 적용하며 검증 손실을 기준으로 조기 중단을 사용한다.

실험 결과

연구 질문

  • RQ1트랜스포머 기반의 두 스트림 아키텍처가 appearance와 motion 정보를 동작 인식에 효과적으로 융합할 수 있는가?
  • RQ2RGB 및 광류 특징에 대한 공동 자기-주의가 전통적인 이중 스트림 네트워크의 융합과 비교하여 어떤 차이가 있는가?
  • RQ3프리트레이닝 백본을 사용한 두 스트림 트랜스포머를 사용할 때 UCF101, HMDB51, Something-Something V2에서 어떤 성능 이 gains가 가능한가?

주요 결과

ClassifierPre-trainedUCF101HMDB51
Two-Stream CNNs [30]ImageNet88.00%59.40%
OFF [32]-96.00%74.20%
Two-Stream CNNs [11]ImageNet93.50%69.20%
Two-Stream I3D [2]-93.40%66.40%
Two-Stream I3D [2]Imagenet+Kinetics 40098.00%80.70%
Two-Stream+LSTM [40]-88.60%-
Two-Stream C3D [27]-91.40%-
Two-Stream TSN [38]-94.00%68.50%
Three-Stream TSN [38]-94.20%69.40%
TDD+iDT [37]-91.50%65.90%
LTC+iDT [35]-91.70%64.80%
ST-ResNet + IDT [10]-94.60%70.30%
MViTv1-B finetune (our baseline) [6]Kinetics-40089.66%66.75%
MViTv2-S finetune (our baseline) [24]Kinetics-40092.11%73.59%
Swin-S finetune (our baseline) [26]Kinetics-40082.64%57.47%
Our (MViTv2-S based)Kinetics-40093.54%83.39%
  • 제안된 두 스트림 트랜스포머는 UCF101 및 HMDB51에서 기준선 대비 큰 향상을 달성하며, UCF101에서 가장 가까운 기준선 대비 최대 10.9% 상대 향상, HMDB51에서 최대 25.92%를 기록한다.
  • Something-Something V2에서 데이터 확장을 사용하지 않더라도 기준선 대비 주목할 만한 이득을 보여 6.82%의 절대 향상을 달성한다.
  • RAFT 기반 광류와 트랜스포머 융합은 MViTv1/MViTv2 및 Swin 백본과 비교하여 데이터셋 간 경쟁력 있는 결과를 제공한다.
  • 두 스트림 융합은 단순한 특징 연결이 아닌 트랜스포머 인코더 내에서 콘텐츠와 모션 간의 관계를 학습하게 한다.
  • 합성 학습 데이터(FlyingChairs/FlyingThings3D)로 추정된 광류가 실제 비디오에 일반화될 수 있으며, 노이즈가 발생할 수 있지만 더 나은 광류 추정으로 개선된다.
  • 이 방법은 Kinetics-400에서 사전 학습한 작고 강력한 모델(MViTv1-B, MViTv2-S, Swin-S)을 대상으로 목표 데이터셋에 미세조정했을 때 강력한 결과를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.