QUICK REVIEW

[论文解读] Two-Stream Convolutional Networks for Action Recognition in Videos

Karen Simonyan, Andrew Zisserman|arXiv (Cornell University)|Jun 9, 2014

Human Pose and Action Recognition参考文献 30被引用 5,353

一句话总结

本文提出一个两流CNN架构用于视频动作识别，结合空间流（帧外观）和时间流（密集光流），通过多任务学习和融合策略在 UCF-101 和 HMDB-51 上达到最先进的性能。

ABSTRACT

We investigate architectures of discriminatively trained deep Convolutional Networks (ConvNets) for action recognition in video. The challenge is to capture the complementary information on appearance from still frames and motion between frames. We also aim to generalise the best performing hand-crafted features within a data-driven learning framework. Our contribution is three-fold. First, we propose a two-stream ConvNet architecture which incorporates spatial and temporal networks. Second, we demonstrate that a ConvNet trained on multi-frame dense optical flow is able to achieve very good performance in spite of limited training data. Finally, we show that multi-task learning, applied to two different action classification datasets, can be used to increase the amount of training data and improve the performance on both. Our architecture is trained and evaluated on the standard video actions benchmarks of UCF-101 and HMDB-51, where it is competitive with the state of the art. It also exceeds by a large margin previous attempts to use deep nets for video classification.

研究动机与目标

通过利用互补的外观信息和运动信息来推动视频动作识别的深度学习。
提出一种两流CNN架构，具有独立的空间网络和时间网络，以及用于动作分类的晚融合。
研究基于光流的时间输入配置及其对识别性能的影响。
探索多任务学习以融合来自多个数据集的训练数据并提升泛化。

提出的方法

引入一个两流ConvNet架构，具备空间流（基于帧）和时间流（基于运动）的分支。
在 ImageNet 上预训练空间流并微调用于动作识别；使用晚融合来组合流的分数。
描述在多帧密集光流输入上工作的时间卷积网络（有两个选项：光流堆叠和轨迹堆叠）。
试验平均光流减去和双向光流变体，以评估对相机运动和运动模式的鲁棒性。
通过在 HMDB-51 和 UCF-101 上联合训练，应用多任务学习，具有任务特定的 softmax 层和损失函数。
使用在 UCF-101 和 HMDB-51 的三个分割的平均准确度进行评估，并与最先进的手工设计和深度方法进行比较。

实验结果

研究问题

RQ1双流CNN是否能够同时利用外观和运动信号，在视频动作识别中超越单流方法？
RQ2多帧光流输入及其变体如何影响时序特征学习和准确性？
RQ3跨数据集的多任务学习是否提升时序CNN在动作识别上的泛化能力？

主要发现

两流架构通过结合互补的空间和时间线索提升了性能。
以光流输入和多帧堆叠训练的时序网络比单帧或空间网络获得更高的准确性。
均值减法（相机运动补偿）和 L=10 光流堆叠带来强劲的时序性能提升。
使用 HMDB-51 和 UCF-101 的多任务学习提供最佳时序网络结果，显示额外训练数据的好处。
两流融合采用 SVM 超越平均融合，且通过多任务学习训练的时序流获得最佳整体结果。
在 UCF-101 上，两流模型配合 SVM 融合达到 88.0% 的平均准确率（split 1），在 HMDB-51 上达到 59.4%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。