QUICK REVIEW

[论文解读] Contextual Action Recognition with R*CNN

Georgia Gkioxari, Ross Girshick|arXiv (Cornell University)|May 5, 2015

Human Pose and Action Recognition参考文献 28被引用 72

一句话总结

本文提出R∗CNN，一种基于区域的卷积神经网络，通过联合建模主要人物区域和信息丰富的次要上下文区域来提升动作识别性能。通过端到端训练联合利用姿态与场景上下文，R∗CNN在PASCAL VOC Actions数据集上达到90.2%的平均AP，较之前方法提升6个百分点，并在属性分类任务上也取得了最先进结果。

ABSTRACT

There are multiple cues in an image which reveal what action a person is performing. For example, a jogger has a pose that is characteristic for jogging, but the scene (e.g. road, trail) and the presence of other joggers can be an additional source of information. In this work, we exploit the simple observation that actions are accompanied by contextual cues to build a strong action recognition system. We adapt RCNN to use more than one region for classification while still maintaining the ability to localize the action. We call our system R*CNN. The action-specific models and the feature maps are trained jointly, allowing for action specific representations to emerge. R*CNN achieves 90.2% mean AP on the PASAL VOC Action dataset, outperforming all other approaches in the field by a significant margin. Last, we show that R*CNN is not limited to action recognition. In particular, R*CNN can also be used to tackle fine-grained tasks such as attribute classification. We validate this claim by reporting state-of-the-art performance on the Berkeley Attributes of People dataset.

研究动机与目标

通过利用超越人体姿态的上下文线索来提升静态图像中的动作识别性能。
开发一种深度学习框架，联合学习与动作相关的特征与上下文表征。
扩展RCNN框架，为每张图像使用多个区域以提升定位与分类性能。
证明该方法可泛化至细粒度视觉识别任务，如属性分类。
可视化并验证模型能够关注语义相关的上下文区域。

提出的方法

R∗CNN通过在每张图像中引入一个主要区域（目标人物）和一组候选次要区域（上下文线索）来扩展RCNN。
对于每个动作，模型计算得分，即主要区域特征与次要区域中最大得分的和：score(α; I, r) = w_p^α ⋅ φ(r; I) + max_{s ∈ R(r;I)} w_s^α ⋅ φ(s; I)。
最终预测通过在所有动作得分上应用softmax得到，将其转换为类别概率。
特征φ(⋅)与权重w_p^α, w_s^α通过在CNN主干网络上使用随机梯度下降进行端到端联合训练。
该方法利用区域提议高效处理每张图像的多个候选区域，基于Fast RCNN实现计算效率。
对于多标签属性分类，损失函数调整为独立逻辑输出的交叉熵，而非softmax。

实验结果

研究问题

RQ1场景、物体及周围人物等上下文线索是否能提升静态图像中的动作识别性能？
RQ2深度学习模型能否在无需人工标注上下文的情况下，联合学习与动作相关的表征与上下文区域选择？
RQ3使用多个区域（主要区域+最优次要区域）是否能带来优于单区域模型的性能？
RQ4同一架构能否泛化至细粒度识别任务（如属性分类）？
RQ5所选的次要区域是否对应于与动作或属性语义相关的有意义上下文线索？

主要发现

R∗CNN在PASCAL VOC Actions数据集上达到90.2%的平均平均精度（mAP），较之前最先进方法提升6个百分点。
在更大的MPII Human Pose数据集上，R∗CNN达到26.7%的mAP，显著优于之前最佳方法（5.5% mAP）。
在Stanford 40 Actions数据集上，R∗CNN平均mAP达到90.9%，性能范围从'发短信'的70.5%到'演奏小提琴'的100%不等。
在Berkeley Attributes of People数据集上，R∗CNN达到89.2%的mAP，创下属性分类新SOTA记录。
可视化结果证实，次要区域关注到相关上下文部分：例如'长袖'对应手臂与躯干，'戴帽子'对应面部。
该模型在动作识别与细粒度属性预测任务上均表现出良好泛化能力，且在训练过程中无需人体部位或关键点标注。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。