QUICK REVIEW

[论文解读] Two Stream LSTM: A Deep Fusion Framework for Human Action Recognition

Harshala Gammulle, Simon Denman|arXiv (Cornell University)|Apr 4, 2017

Human Pose and Action Recognition参考文献 34被引用 25

一句话总结

本文提出了一种双流LSTM框架，将预训练VGG-16 CNN的空间特征与两个独立LSTM流所建模的时间动态相结合——一个处理卷积特征，另一个使用全连接层特征。该方法在UCF11（94.6%）、UCFSports和jHMDB数据集上实现了最先进（SOTA）的准确率，通过将全连接层特征用作隐式注意力机制，以更少的参数量优于先前方法。

ABSTRACT

In this paper we address the problem of human action recognition from video sequences. Inspired by the exemplary results obtained via automatic feature learning and deep learning approaches in computer vision, we focus our attention towards learning salient spatial features via a convolutional neural network (CNN) and then map their temporal relationship with the aid of Long-Short-Term-Memory (LSTM) networks. Our contribution in this paper is a deep fusion framework that more effectively exploits spatial features from CNNs with temporal features from LSTM models. We also extensively evaluate their strengths and weaknesses. We find that by combining both the sets of features, the fully connected features effectively act as an attention mechanism to direct the LSTM to interesting parts of the convolutional feature sequence. The significance of our fusion method is its simplicity and effectiveness compared to other state-of-the-art methods. The evaluation results demonstrate that this hierarchical multi stream fusion method has higher performance compared to single stream mapping methods allowing it to achieve high accuracy outperforming current state-of-the-art methods in three widely used databases: UCF11, UCFSports, jHMDB.

研究动机与目标

解决在杂乱背景、遮挡和复杂运动条件下真实视频中的人体动作识别挑战。
通过深度融合空间与时间特征，有效提升识别准确率。
探究CNN全连接层激活是否可作为注意力机制，引导LSTM处理过程。
开发一种计算效率更高的多流或双网络架构替代方案。
在标准基准数据集UCF11、UCFSports和jHMDB上评估所提出的融合框架。

提出的方法

模型使用预训练的VGG-16网络从视频帧中提取空间特征，以最后一层卷积层输出作为其中一流。
第二路LSTM处理来自同一CNN的首个全连接层输出，捕捉高层语义表征。
两个独立的LSTM分别独立处理空间特征与语义特征序列，随后进行融合。
第三路LSTM将两路输出结合，以建模联合时空依赖关系。
融合策略利用全连接层特征，隐式引导LSTM关注特征序列中的显著区域，起到注意力机制作用。
整个模型在动作识别数据集上通过交叉熵损失进行端到端微调。

实验结果

研究问题

RQ1将CNN的卷积特征与全连接特征通过两路独立LSTM流结合，能否提升动作识别性能？
RQ2全连接层激活的使用在多大程度上影响LSTM对特征序列中相关时间片段的关注能力？
RQ3所提出的双流融合框架是否在标准基准上优于单流或多重流基线方法？
RQ4与先前最先进方法相比，该模型在保持或提升准确率的同时，参数量减少的程度如何？
RQ5该模型在具有相似外观但运动模式不同的多样化动作类别上泛化能力如何？

主要发现

所提出的双流LSTM框架在UCF11数据集上达到94.6%的准确率，比之前最先进方法高出5.1个百分点。
在UCFSports数据集上，模型在区分视觉相似动作（如高尔夫挥杆与槌球挥杆）方面表现更优，相比先前工作减少了混淆。
在jHMDB数据集上，模型对“倒液体”、“打高尔夫”、“爬楼梯”和“引体向上”等挑战性类别实现了高准确率，且在“投篮”和“跳跃”任务上相比[7]性能更优。
全连接层特征起到了隐式注意力机制的作用，引导LSTM聚焦于卷积特征序列中最相关的部分。
模型仅使用1.41亿个参数，显著少于先前方法（如[7]的1.8亿和[26]的3亿），证明了计算效率的提升。
通过第三路LSTM融合两路输出，性能最佳，证实了分层多流融合的优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。