QUICK REVIEW

[论文解读] Hierarchical Attention Network for Action Recognition in Videos

Yilin Wang, Suhang Wang|arXiv (Cornell University)|Jul 21, 2016

Human Pose and Action Recognition参考文献 20被引用 77

一句话总结

本文提出了一种分层注意力网络（HAN）用于视频动作识别，该网络结合双流CNN与分层LSTM，并采用双重视频-时间注意力机制，以建模长程时间依赖性并聚焦于显著区域。HAN在UCF-101上达到92.7%的准确率，在HMDB-51上达到64.3%的准确率，性能达到当前最先进水平，通过显式捕捉短期与长期运动模式，同时借助注意力驱动的特征选择降低噪声敏感性。

ABSTRACT

Understanding human actions in wild videos is an important task with a broad range of applications. In this paper we propose a novel approach named Hierarchical Attention Network (HAN), which enables to incorporate static spatial information, short-term motion information and long-term video temporal structures for complex human action understanding. Compared to recent convolutional neural network based approaches, HAN has following advantages (1) HAN can efficiently capture video temporal structures in a longer range; (2) HAN is able to reveal temporal transitions between frame chunks with different time steps, i.e. it explicitly models the temporal transitions between frames as well as video segments and (3) with a multiple step spatial temporal attention mechanism, HAN automatically learns important regions in video frames and temporal segments in the video. The proposed model is trained and evaluated on the standard video action benchmarks, i.e., UCF-101 and HMDB-51, and it significantly outperforms the state-of-the arts

研究动机与目标

为解决在具有可变运动速度、视角变化和背景杂波的野生视频中建模长程时间依赖性的挑战。
通过联合学习显著区域的空间注意力与关键视频片段的时间注意力，提升动作识别性能。
开发一种端到端的深度学习框架，以捕捉短期运动动态与长期动作结构。
减少对计算成本高昂的手工设计特征（如iDT）的依赖，同时保持或超越其性能。
证明分层循环结构与软注意力机制在建模未剪辑视频中复杂人类动作方面的有效性。

提出的方法

该模型采用双流CNN架构，分别处理RGB帧与光流图，以提取空间特征与运动特征。
分层LSTM结构在帧级与片段级处理特征，实现对短期过渡与长程时间依赖性的建模。
软时空注意力机制在帧与视频片段上计算注意力权重，使网络能够动态聚焦于最具信息量的区域与时间区间。
注意力权重通过门控机制计算，该机制关注来自空间与时间LSTM的编码特征，随后通过加权平均操作优化特征表示。
网络通过交叉熵损失进行端到端训练，注意力模块集成于LSTM层中，以引导特征学习。
为提高效率，光流预先计算并存储；推理时采用固定长度的时间窗口以保持一致性。

实验结果

研究问题

RQ1分层注意力机制是否能有效建模视频中的短期运动转换与长期动作结构？
RQ2联合时空注意力是否通过聚焦于显著区域与关键时间片段，提升动作识别性能？
RQ3深度学习框架是否能在无需计算昂贵的iDT特征的情况下，超越iDT等手工特征的性能？
RQ4与标准LSTM相比，分层LSTM结构在捕捉动作序列中的长程依赖性方面表现如何？
RQ5注意力机制在多大程度上可减轻背景杂波与类别内差异对动作识别的影响？

主要发现

HAN在UCF-101上达到92.7%的准确率，在HMDB-51上达到64.3%的准确率，显著优于当前最先进方法，包括双流CNN与基于iDT的模型。
移除注意力机制后，UCF-101准确率下降至90.6%，HMDB-51下降至62.0%，证明注意力在特征选择中的关键作用。
分层LSTM结构相比标准LSTM性能更优，表明其具备建模复杂、长程动作序列的能力，突破标准LSTM 40帧的限制。
仅使用光流输入的HAN性能与使用iDT特征的模型相当或更优，表明学习到的注意力可替代密集轨迹计算。
视觉注意力分析显示，HAN学习到的区域比先前注意力模型更准确且与运动更相关，如图4的定性对比结果所示。
结合空间与时间特征的性能优于单独使用任一模态，证实二者在动作识别中的互补性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。