Skip to main content
QUICK REVIEW

[论文解读] Appearance-and-Relation Networks for Video Classification

Limin Wang, Wei Li|arXiv (Cornell University)|Nov 24, 2017
Human Pose and Action Recognition参考文献 46被引用 44
一句话总结

本文提出外观与关系网络(ARTNet),一种新颖的视频分类架构,通过双分支SMART模块显式建模空间外观和时序关系——使用2D卷积捕捉外观特征,通过帧间响应的乘法交互建模关系。ARTNet在Kinetics、UCF101和HMDB51数据集上达到最先进性能,在相同训练设置下仅使用RGB输入,优于3D CNN和双流网络。

ABSTRACT

Spatiotemporal feature learning in videos is a fundamental problem in computer vision. This paper presents a new architecture, termed as Appearance-and-Relation Network (ARTNet), to learn video representation in an end-to-end manner. ARTNets are constructed by stacking multiple generic building blocks, called as SMART, whose goal is to simultaneously model appearance and relation from RGB input in a separate and explicit manner. Specifically, SMART blocks decouple the spatiotemporal learning module into an appearance branch for spatial modeling and a relation branch for temporal modeling. The appearance branch is implemented based on the linear combination of pixels or filter responses in each frame, while the relation branch is designed based on the multiplicative interactions between pixels or filter responses across multiple frames. We perform experiments on three action recognition benchmarks: Kinetics, UCF101, and HMDB51, demonstrating that SMART blocks obtain an evident improvement over 3D convolutions for spatiotemporal feature learning. Under the same training setting, ARTNets achieve superior performance on these three datasets to the existing state-of-the-art methods.

研究动机与目标

  • 通过在统一但解耦的架构中显式建模外观与时序关系,解决视频中学习有效时空表征的挑战。
  • 克服3D CNN的局限性,后者隐式联合建模两种线索,且性能相对双流网络较差。
  • 设计一种通用的、端到端可训练的模块化单元(SMART),以增强视频分类的特征学习能力。
  • 在Kinetics、UCF101和HMDB51等标准基准上,展示所学表征的优越性能与可迁移性。

提出的方法

  • SMART模块将时空学习解耦为两条并行分支:外观分支使用2D卷积,用于建模单帧内的空间结构。
  • 关系分支通过多帧间特征响应的乘法交互,建模时序动态,实现方式为平方池化结构。
  • 两条分支的输出通过拼接后,经1×1卷积进行降维,生成紧凑的联合表征。
  • ARTNet通过堆叠多个SMART模块构建,实现对多尺度时空结构的层次化建模。
  • 该架构采用C3D-ResNet18主干网络实现,并可与长程建模框架(如TSN)结合以进一步提升性能。
  • 模型从零开始端到端训练,仅使用RGB输入,可选地集成光流以获得进一步性能增益。

实验结果

研究问题

  • RQ1在视频分类中,显式建模外观与时序关系是否优于通过3D卷积隐式联合建模?
  • RQ2一种将空间与时序特征学习解耦的双分支架构,是否能优于双流或3D CNN方法?
  • RQ3ARTNet所学表征在UCF101和HMDB51等下游动作识别基准上的泛化能力如何?
  • RQ4当仅在Kinetics数据集上预训练时,ARTNet的性能与最先进方法相比如何?

主要发现

  • ARTNet在仅使用RGB输入从零开始训练的情况下,在Kinetics数据集上达到94.3%的top-1准确率,超越了相同设置下之前的最先进方法(RGB-I3D)。
  • 在UCF101上,ARTNet达到94.3%的准确率,在HMDB51上达到70.9%,分别比C3D高出3.7%和5.5%,展现出强大的可迁移性。
  • 性能提升归因于通过独立但融合的分支显式建模外观与关系,相比3D卷积能更有效地捕捉时空结构。
  • 当与TSN框架结合以实现稀疏片段聚合时,ARTNet进一步提升性能,表明其与长程时序建模框架具有良好的兼容性。
  • 仅在Kinetics上预训练的ARTNet,性能与在ImageNet+Kinetics上预训练的RGB-I3D相当,凸显了Kinetics数据集在视频表征学习中的高质量与代表性。
  • 加入光流可进一步提升准确率,证实其互补作用,但计算成本较高。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。