[论文解读] VideoLSTM Convolves, Attends and Flows for Action Recognition
VideoLSTM 提出了一种新颖的循环神经网络架构,通过整合卷积神经网络、基于运动的注意力机制以及端到端学习,实现视频动作识别与定位。通过将空间卷积和运动感知注意力机制硬编码进LSTM结构中,该方法在UCF101(92.2%)和HMDB51(72.9%)数据集上达到当前最优性能,同时仅使用类别标签即可实现弱监督动作定位。
We present a new architecture for end-to-end sequence learning of actions in video, we call VideoLSTM. Rather than adapting the video to the peculiarities of established recurrent or convolutional architectures, we adapt the architecture to fit the requirements of the video medium. Starting from the soft-Attention LSTM, VideoLSTM makes three novel contributions. First, video has a spatial layout. To exploit the spatial correlation we hardwire convolutions in the soft-Attention LSTM architecture. Second, motion not only informs us about the action content, but also guides better the attention towards the relevant spatio-temporal locations. We introduce motion-based attention. And finally, we demonstrate how the attention from VideoLSTM can be used for action localization by relying on just the action class label. Experiments and comparisons on challenging datasets for action classification and localization support our claims.
研究动机与目标
- 为解决标准LSTM在建模视频时的局限性,通过适配视频特有的属性(如空间布局与运动动态)来改进网络架构。
- 联合建模视频序列中的外观、运动与时空局部性,以提升动作识别性能。
- 仅使用视频级别的动作类别标签,无需边界框标注,实现准确的动作定位。
- 证明VideoLSTM中的注意力机制可在弱监督设置下有效定位动作。
提出的方法
- 通过将2D卷积直接嵌入LSTM架构,提出卷积注意力LSTM(Conv-ALSTM),以保留视频帧之间的空间相关性。
- 用浅层卷积网络替代注意力机制中的标准MLP,利用光流生成基于运动的注意力图。
- 对注意力图进行时间平滑处理,以提升定位的一致性,并更聚焦于动作前景区域。
- 利用最终LSTM层生成的注意力图作为显著性图,实现弱监督下的动作定位。
- 通过元素相乘并结合指数权重的方式,将VideoLSTM与iDT特征及其他模型进行融合,以提升性能。
- 仅使用视频级别的标签进行端到端训练,避免在训练过程中依赖边界框标注。
实验结果
研究问题
- RQ1能否将基于LSTM的架构改进为同时建模视频中的空间、时间与运动特征,以提升动作识别性能?
- RQ2与标准注意力机制相比,引入基于运动的注意力机制是否能提升注意力定位与动作识别性能?
- RQ3当仅提供类别级别标签时,端到端训练模型生成的注意力图是否能有效定位动作?
- RQ4在弱监督设置下,VideoLSTM与当前最先进方法在动作识别与定位性能上相比如何?
主要发现
- 当与iDT特征融合后,VideoLSTM在UCF101上达到92.2%的最先进准确率,在HMDB51上达到72.9%。
- 基于运动的注意力机制相比标准Attention-LSTM显著提升了定位性能,具有更高的召回率并更聚焦于动作前景。
- 对注意力图进行时间平滑处理可增强VideoLSTM的定位一致性,表明注意力机制集中于相关时空区域。
- 尽管仅使用视频级别标签,VideoLSTM在THUMOS13数据集上仍取得了具有竞争力的mAP分数,且在多个IoU阈值下优于使用边界框标注进行训练的方法。
- 该模型仅依赖每视频一个检测结果即可有效定位动作,展现出强大的弱监督定位能力。
- 实验表明,联合建模视频的多种属性(空间、运动、时间)可带来一致的性能提升,而孤立建模则几乎无益处。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。