Skip to main content
QUICK REVIEW

[论文解读] Learning to Detect Human-Object Interactions

Yu-Wei Chao, Yunfan Liu|arXiv (Cornell University)|Feb 17, 2017
Multimodal Machine Learning Applications参考文献 36被引用 26
一句话总结

本文提出了 HICO-DET,一个大规模的人-物交互(HOI)检测基准,包含跨 600 种 HOI 类别的 150,000 个实例标注。该研究提出 HO-RCNN,一种基于区域的卷积神经网络框架,通过使用交互模式——即从人和物体边界框之间学习的空间表征——显著提升了检测准确率,相较于基线方法实现了最先进的 mAP 性能。

ABSTRACT

We study the problem of detecting human-object interactions (HOI) in static images, defined as predicting a human and an object bounding box with an interaction class label that connects them. HOI detection is a fundamental problem in computer vision as it provides semantic information about the interactions among the detected objects. We introduce HICO-DET, a new large benchmark for HOI detection, by augmenting the current HICO classification benchmark with instance annotations. To solve the task, we propose Human-Object Region-based Convolutional Neural Networks (HO-RCNN). At the core of our HO-RCNN is the Interaction Pattern, a novel DNN input that characterizes the spatial relations between two bounding boxes. Experiments on HICO-DET demonstrate that our HO-RCNN, by exploiting human-object spatial relations through Interaction Patterns, significantly improves the performance of HOI detection over baseline approaches.

研究动机与目标

  • 为解决人-物交互(HOI)检测中缺乏大规模、实例级别的基准问题,该问题限制了图像中交互行为的定位与分类进展。
  • 通过实现人-物交互的联合定位与分类,弥合图像级 HOI 分类与目标检测之间的差距。
  • 开发一种深度学习框架,有效建模人与物体之间的空间与语义关系,以提升检测性能。
  • 通过一种名为交互模式的新型特征表示,评估空间上下文在 HOI 检测中的有效性。

提出的方法

  • 提出 HO-RCNN,一种两阶段目标检测框架,扩展用于预测带有交互类别标签的人-物边界框对。
  • 引入交互模式——一种深度神经网络输入,通过相对位置、尺寸和重叠特征编码两个边界框之间的空间配置。
  • 使用区域建议网络(RPNs)生成人和物体建议框,然后将它们组合为人-物建议框,以实现联合分类与回归。
  • 采用共享主干网络(如 ResNet)进行特征提取,随后使用区域分类器,将交互模式作为输入以预测交互类别。
  • 应用多任务损失函数,结合分类、边界框回归和交互预测,实现端到端训练模型。
  • 采用晚期融合策略,通过一个分数头(S)将检测分数与交互模式特征结合,以优化预测结果。

实验结果

研究问题

  • RQ1大规模、实例级别的基准是否能提升人-物交互检测的评估效果与研究进展?
  • RQ2通过学习的交互模式对人与物体之间空间关系的建模,在 HOI 检测中是否具有显著有效性?
  • RQ3通过交互模式引入空间上下文,是否能带来相较于忽略空间配置的基线方法的显著性能提升?
  • RQ4不同设计选择(如特征融合与建议框生成)如何影响 HOI 任务中的最终检测准确率?

主要发现

  • 采用交互模式的 HO-RCNN(HO+IP1 (conv)+S)在已知物体设置下达到 10.41% 的 mAP,在默认设置下达到 7.81%,显著优于基线方法。
  • Fast-RCNN(union)基线方法(对人和物体均使用单一注意力窗口)表现较差(默认设置下 mAP 为 1.75%),表明全局上下文不足以区分交互行为。
  • Fast-RCNN(score)基线方法(仅依赖检测分数)在默认设置下达到 2.85% 的 mAP,表明仅靠目标检测置信度不足以实现交互识别。
  • 该模型在每类 50 个检测结果下,人-物建议框的平均召回率达到 57.17%,但由于建议框数量呈二次增长,仍为瓶颈,表明建议框生成仍有优化空间。
  • 错误分析显示,低性能类别主要受假阴性影响,表明提升建议框召回率可进一步提高 mAP。
  • 定性结果表明,HO-RCNN 能够正确检测复杂交互,如“骑自行车”和“切苹果”,而误报主要源于交互类别预测错误或边界框不准确。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。