Skip to main content
QUICK REVIEW

[论文解读] Two-Stream temporal transformer for video action classification

Nattapong Kurpukdee, Adrian G. Borş|arXiv (Cornell University)|Jan 20, 2026
Human Pose and Action Recognition被引用 0
一句话总结

引入一种两流视频分类器,使用 transformer 主干联合建模内容与运动,并通过自注意力在 UCF101、HMDB51 和 Something-Something V2 上取得强劲结果。

ABSTRACT

Motion representation plays an important role in video understanding and has many applications including action recognition, robot and autonomous guidance or others. Lately, transformer networks, through their self-attention mechanism capabilities, have proved their efficiency in many applications. In this study, we introduce a new two-stream transformer video classifier, which extracts spatio-temporal information from content and optical flow representing movement information. The proposed model identifies self-attention features across the joint optical flow and temporal frame domain and represents their relationships within the transformer encoder mechanism. The experimental results show that our proposed methodology provides excellent classification results on three well-known video datasets of human activities.

研究动机与目标

  • 通过利用 transformer 基于自注意力在内容与运动表示间的跨域建模,提升视频动作识别性能。
  • 提出一个两流 transformer 架构,在统一编码器内融合帧级特征与光流特征。
  • 在标准基准数据集上评估性能并与最先进的两流及 transformer 基方法进行对比。

提出的方法

  • 用神经光流模型(RAFT)预测相邻帧之间的光流。
  • 将 RGB 帧和预测的光流同时输入 transformer 编码器,学习时空自注意力。
  • 通过一个两流 transformer 输入结构融合两条流,并应用多头注意力进行联合表征学习。
  • 使用经预训练的视频 transformer 主干(MViTv1/MViTv2/Swin)作为时序特征提取器,并以 8 头的多头注意力和 768 通道的最终特征进行适配。
  • 以交叉熵损失训练,应用 dropout,并基于验证损失进行早停。

实验结果

研究问题

  • RQ1基于 transformer 的两流体系是否能有效融合外观信息与运动信息以进行动作识别?
  • RQ2RGB 与光流特征上的联合自注意力相比传统两流网络中的特征融合有何差异与优势?
  • RQ3在使用带有预训练骨架的两流 transformer 时,在 UCF101、HMDB51 和 Something-Something V2 上能取得哪些性能提升?

主要发现

  • 提出的两流 transformer 在 UCF101 和 HMDB51 上相比基线有显著提升,在 UCF101 上比最近的基线最高提升可达相对 10.9%,在 HMDB51 上最高达 25.92%。
  • 在 Something-Something V2 上,该方法相对于基线在不使用数据增强的情况下实现了最高 6.82% 的绝对提升。
  • 基于 RAFT 的光流与 transformer 融合在各数据集上均能获得与 MViTv1/MViTv2 及 Swin 骨架相当的结果。
  • 两流融合使模型在 transformer 编码器内学习内容与运动之间的关系,而非简单的特征拼接。
  • 从合成训练数据(FlyingChairs/FlyingThings3D)估计的光流可以泛化到真实视频,尽管可能存在噪声,但随光流估计的改进而提升。
  • 该方法在较小的模型(MViTv1-B、MViTv2-S、Swin-S)上进行在 Kinetics-400 预训练并在目标数据集微调,呈现出强劲的结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。