QUICK REVIEW

[论文解读] Going Deeper into First-Person Activity Recognition

Minghuang Ma, Haoqi Fan|arXiv (Cornell University)|May 12, 2016

Human Pose and Action Recognition参考文献 28被引用 27

一句话总结

本文提出一种双流卷积神经网络架构，用于第一人称活动识别，通过联合建模外观（手部与物体特征）和运动（光流）来提升动作、物体和活动识别性能。该模型在最先进方法的基础上实现了平均6.6%的准确率提升，并通过联合学习与注意力机制使动作识别提升30%，物体识别提升14%。

ABSTRACT

We bring together ideas from recent work on feature design for egocentric action recognition under one framework by exploring the use of deep convolutional neural networks (CNN). Recent work has shown that features such as hand appearance, object attributes, local hand motion and camera ego-motion are important for characterizing first-person actions. To integrate these ideas under one framework, we propose a twin stream network architecture, where one stream analyzes appearance information and the other stream analyzes motion information. Our appearance stream encodes prior knowledge of the egocentric paradigm by explicitly training the network to segment hands and localize objects. By visualizing certain neuron activation of our network, we show that our proposed architecture naturally learns features that capture object attributes and hand-object configurations. Our extensive experiments on benchmark egocentric action datasets show that our deep architecture enables recognition rates that significantly outperform state-of-the-art techniques -- an average $6.6\%$ increase in accuracy over all datasets. Furthermore, by learning to recognize objects, actions and activities jointly, the performance of individual recognition tasks also increase by $30\%$ (actions) and $14\%$ (objects). We also include the results of extensive ablative analysis to highlight the importance of network design decisions..

研究动机与目标

通过在统一的深度学习框架中整合外观与运动线索，解决第一人称活动识别的挑战。
在不依赖注视数据的前提下，超越最先进方法的识别性能。
探究在第一人称视频中，对动作、物体和活动进行联合学习的有效性。
通过可视化中间层激活，理解网络学习到的特征。
证明在第一人称动作识别中，物体定位与运动的时间结构的重要性。

提出的方法

设计一种双流卷积神经网络，其中一条分支处理外观特征（手部分割图像与裁剪的物体区域），另一条分支处理堆叠的光流场以实现运动建模。
通过添加手部分割头来训练外观分支，以实现对双手-物体区域的关注，提升特征学习效果。
采用晚期融合策略，使用共享的全连接层，实现对动作、物体和活动的多任务预测。
实施联合训练，引入三种加权损失（动作、物体、活动），以实现参数共享并提升泛化能力。
通过消融分析评估关键设计选择的影响，如物体裁剪与联合训练。
可视化卷积层中神经元的激活情况，以解释所学习到的特征，如手-物体配置与运动特征模式。

实验结果

研究问题

RQ1统一的深度学习框架能否有效整合外观与运动特征，以实现第一人称活动识别？
RQ2与独立或级联训练相比，对动作、物体和活动识别进行联合训练在性能上如何提升？
RQ3手部分割与物体裁剪在多大程度上提升了第一人称视频中的特征学习？
RQ4网络神经元学习检测的视觉特征类型（如手部外观、物体属性、运动模式）有哪些？
RQ5运动特征中的时间顺序在区分‘放’与‘拿’等动作中有多重要？

主要发现

所提出的双流卷积神经网络在基准第一人称动作数据集上，无需使用注视信息，相比最先进方法实现了平均6.6%的准确率提升。
与单任务基线相比，通过多任务学习的联合训练使动作识别准确率提升30%，物体识别准确率提升14%。
可视化结果表明，网络能够学习检测手-物体配置、物体属性以及局部手部运动，同时抑制全局相机自我运动的影响。
网络能自动区分不同类型的运动（如手部运动与相机运动），部分神经元对特定动作的运动模式产生强烈响应。
反转光流序列会显著减弱神经元激活，证实时间顺序被编码在网络中，且对区分‘放’与‘拿’等动作至关重要。
通过裁剪物体图像实现的物体定位，其性能仅比完整模型低9.6%，凸显了在第一人称场景中聚焦关键物体的关键作用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。