Skip to main content
QUICK REVIEW

[论文解读] Object Level Visual Reasoning in Videos

Fabien Baradel, Nathalia Neverova|arXiv (Cornell University)|Jun 16, 2018
Human Pose and Action Recognition参考文献 37被引用 89
一句话总结

这篇论文提出了对象关系网络(ORN),用于对视频中具备语义意义的对象交互进行推理,结合基于 Mask-RCNN 的对象检测与关系推理,在 SS、VLOG 和 EPIC Kitchens 上达到了目前的最先进结果。

ABSTRACT

Human activity recognition is typically addressed by detecting key concepts like global and local motion, features related to object classes present in the scene, as well as features related to the global context. The next open challenges in activity recognition require a level of understanding that pushes beyond this and call for models with capabilities for fine distinction and detailed comprehension of interactions between actors and objects in a scene. We propose a model capable of learning to reason about semantically meaningful spatiotemporal interactions in videos. The key to our approach is a choice of performing this reasoning at the object level through the integration of state of the art object detection networks. This allows the model to learn detailed spatial interactions that exist at a semantic, object-interaction relevant level. We evaluate our method on three standard datasets (Twenty-BN Something-Something, VLOG and EPIC Kitchens) and achieve state of the art results on all of them. Finally, we show visualizations of the interactions learned by the model, which illustrate object classes and their interactions corresponding to different activity classes.

研究动机与目标

  • 推动对人-对象交互的细粒度理解,超越全局运动和场景线索的局限。
  • 利用显式对象检测来进行视频中的时空关系推理。
  • 开发一个端到端可训练的架构,跨时间对对象实例进行推理。
  • 证明对象级推理在具有挑战性的数据集上优于仅基于活动的基线。

提出的方法

  • 引入对象关系网络(ORN),在空间和时间上对检测到的对象实例之间进行推理。
  • 使用 Mask-RCNN 获得对象掩码和类别预测,使用 ROI-Pooling 提取每个对象的特征。
  • 用一个函数 h_theta 建模跨帧的成对对象关系,并通过全局函数 g 进行聚合,再通过一个递归的 f_phi(GRU)来传播以捕捉长程依赖。
  • 将对象推理表示与单独的活动头结合,后者捕捉全局运动上下文。
  • 以联合损失来训练:活动分类损失加上辅助的对象类别一致性损失,以使对象特征与语义类别对齐。

实验结果

研究问题

  • RQ1对象级、语义化的关系推理是否能在视频活动识别中超越传统的全局运动模型?
  • RQ2是否通过带有递归的显式跨帧对象交互推理(ORN)在精细化视频理解任务上实现更好性能?
  • RQ3使用语义定义的对象实例与像素级关系推理在视频活动识别方面有何差异?
  • RQ4联合训练对象头和活动头与分别训练它们相比有何影响?

主要发现

  • 在 VLOG 上,所提方法达到 44.7% 的 mAP,超过之前的最佳(40.5%)。
  • 在 Something-Something 上,该方法较现有技术提升了 2.3 点。
  • 在 EPIC Kitchens 上,该方法达到 40.89% 的准确率,相较基线提升约 6.4–7.9 点,取决于所使用的基线。
  • 消融研究表明,加入对象级推理在所有数据集上对活动头基线提供显著增益(0.8–2.5+ 点)。
  • 使用语义定义的对象在 EPIC 上再提升约 2 点,VLOG 上再提升约 2.3 点,相比像素级推理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。