[论文解读] Hidden Two-Stream Convolutional Networks for Action Recognition
本文提出 Hidden Two-Stream Networks,通过 MotionNet 在端到端框架中直接从原始帧学习运动表征,实现无需预先计算光流的实时动作识别。它在四个数据集上展示了具有竞争力的准确性,并显著快于两阶段基线。
Analyzing videos of human actions involves understanding the temporal relationships among video frames. State-of-the-art action recognition approaches rely on traditional optical flow estimation methods to pre-compute motion information for CNNs. Such a two-stage approach is computationally expensive, storage demanding, and not end-to-end trainable. In this paper, we present a novel CNN architecture that implicitly captures motion information between adjacent frames. We name our approach hidden two-stream CNNs because it only takes raw video frames as input and directly predicts action classes without explicitly computing optical flow. Our end-to-end approach is 10x faster than its two-stage baseline. Experimental results on four challenging action recognition datasets: UCF101, HMDB51, THUMOS14 and ActivityNet v1.2 show that our approach significantly outperforms the previous best real-time approaches.
研究动机与目标
- 推动将运动表征的端到端学习用于动作识别,以避免代价高昂的光流预计算。
- 引入 MotionNet,用自监督方式从帧对中学习类似光流的运动。
- 将 MotionNet 与时序 CNN 堆叠并端到端训练以进行动作分类。
- 展示在标准基准上提高的效率和具有竞争力的准确性。
提出的方法
- 提出 MotionNet,这是一个端到端卷积网络,通过使用向后扭曲从一个帧重构另一个帧来学习逐帧运动。
- 用自监督的多尺度损失训练 MotionNet:像素重建、平滑性和基于 SSIM 的感知损失。
- 对预测的光流进行裁剪、归一化和量化,以输入到时序流 CNN,从而实现端到端堆叠。
- 比较堆叠与分支;实现堆叠以将运动特征投影到动作标签。
- 在隐藏双流架构中融合来自时序运动流和空间流的预测。
- 在四个数据集(UCF101、HMDB51、THUMOS14、ActivityNet)上使用标准划分和数据增强进行评估。
实验结果
研究问题
- RQ1是否可以在不进行显式光流预计算的情况下,从原始帧中端到端学习运动信息?
- RQ2在与时序 CNN 堆叠时,使用自监督的 MotionNet 学习是否会提升动作识别?
- RQ3将多任务目标(包括自监督损失)用于端到端训练是否有益于动作识别?
- RQ4隐藏双流融合在准确性和速度方面与传统双流方法相比如何?
主要发现
- MotionNet 在自监督训练下提供了具有竞争力的光流样表示,当与时序 CNN 堆叠时,动作识别性能强劲。
- 端到端的隐藏双流网络大约比两阶段基线快10倍,这归因于现场运动估计和无光流存储。
- 将 MotionNet 的时序流与空间流融合后,堆叠的时序流在准确性上优于单流基线。
- 结合自监督和动作损失进行端到端微调,在测试的配置中取得最佳识别结果。
- MotionNet 展现出鲁棒性和泛化能力,在光流基准上也具有竞争力,同时实现了强劲的动作识别结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。