QUICK REVIEW

[论文解读] Hidden Two-Stream Convolutional Networks for Action Recognition

Yi Zhu, Zhenzhong Lan|arXiv (Cornell University)|Apr 2, 2017

Human Pose and Action Recognition参考文献 30被引用 99

一句话总结

本文提出 Hidden Two-Stream Networks，通过 MotionNet 在端到端框架中直接从原始帧学习运动表征，实现无需预先计算光流的实时动作识别。它在四个数据集上展示了具有竞争力的准确性，并显著快于两阶段基线。

ABSTRACT

Analyzing videos of human actions involves understanding the temporal relationships among video frames. State-of-the-art action recognition approaches rely on traditional optical flow estimation methods to pre-compute motion information for CNNs. Such a two-stage approach is computationally expensive, storage demanding, and not end-to-end trainable. In this paper, we present a novel CNN architecture that implicitly captures motion information between adjacent frames. We name our approach hidden two-stream CNNs because it only takes raw video frames as input and directly predicts action classes without explicitly computing optical flow. Our end-to-end approach is 10x faster than its two-stage baseline. Experimental results on four challenging action recognition datasets: UCF101, HMDB51, THUMOS14 and ActivityNet v1.2 show that our approach significantly outperforms the previous best real-time approaches.

研究动机与目标

推动将运动表征的端到端学习用于动作识别，以避免代价高昂的光流预计算。
引入 MotionNet，用自监督方式从帧对中学习类似光流的运动。
将 MotionNet 与时序 CNN 堆叠并端到端训练以进行动作分类。
展示在标准基准上提高的效率和具有竞争力的准确性。

提出的方法

提出 MotionNet，这是一个端到端卷积网络，通过使用向后扭曲从一个帧重构另一个帧来学习逐帧运动。
用自监督的多尺度损失训练 MotionNet：像素重建、平滑性和基于 SSIM 的感知损失。
对预测的光流进行裁剪、归一化和量化，以输入到时序流 CNN，从而实现端到端堆叠。
比较堆叠与分支；实现堆叠以将运动特征投影到动作标签。
在隐藏双流架构中融合来自时序运动流和空间流的预测。
在四个数据集（UCF101、HMDB51、THUMOS14、ActivityNet）上使用标准划分和数据增强进行评估。

实验结果

研究问题

RQ1是否可以在不进行显式光流预计算的情况下，从原始帧中端到端学习运动信息？
RQ2在与时序 CNN 堆叠时，使用自监督的 MotionNet 学习是否会提升动作识别？
RQ3将多任务目标（包括自监督损失）用于端到端训练是否有益于动作识别？
RQ4隐藏双流融合在准确性和速度方面与传统双流方法相比如何？

主要发现

MotionNet 在自监督训练下提供了具有竞争力的光流样表示，当与时序 CNN 堆叠时，动作识别性能强劲。
端到端的隐藏双流网络大约比两阶段基线快10倍，这归因于现场运动估计和无光流存储。
将 MotionNet 的时序流与空间流融合后，堆叠的时序流在准确性上优于单流基线。
结合自监督和动作损失进行端到端微调，在测试的配置中取得最佳识别结果。
MotionNet 展现出鲁棒性和泛化能力，在光流基准上也具有竞争力，同时实现了强劲的动作识别结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。