[论文解读] Learning to Detect Human-Object Interactions
本文提出了 HICO-DET,一个大规模的人-物交互(HOI)检测基准,包含跨 600 种 HOI 类别的 150,000 个实例标注。该研究提出 HO-RCNN,一种基于区域的卷积神经网络框架,通过使用交互模式——即从人和物体边界框之间学习的空间表征——显著提升了检测准确率,相较于基线方法实现了最先进的 mAP 性能。
We study the problem of detecting human-object interactions (HOI) in static images, defined as predicting a human and an object bounding box with an interaction class label that connects them. HOI detection is a fundamental problem in computer vision as it provides semantic information about the interactions among the detected objects. We introduce HICO-DET, a new large benchmark for HOI detection, by augmenting the current HICO classification benchmark with instance annotations. To solve the task, we propose Human-Object Region-based Convolutional Neural Networks (HO-RCNN). At the core of our HO-RCNN is the Interaction Pattern, a novel DNN input that characterizes the spatial relations between two bounding boxes. Experiments on HICO-DET demonstrate that our HO-RCNN, by exploiting human-object spatial relations through Interaction Patterns, significantly improves the performance of HOI detection over baseline approaches.
研究动机与目标
- 为解决人-物交互(HOI)检测中缺乏大规模、实例级别的基准问题,该问题限制了图像中交互行为的定位与分类进展。
- 通过实现人-物交互的联合定位与分类,弥合图像级 HOI 分类与目标检测之间的差距。
- 开发一种深度学习框架,有效建模人与物体之间的空间与语义关系,以提升检测性能。
- 通过一种名为交互模式的新型特征表示,评估空间上下文在 HOI 检测中的有效性。
提出的方法
- 提出 HO-RCNN,一种两阶段目标检测框架,扩展用于预测带有交互类别标签的人-物边界框对。
- 引入交互模式——一种深度神经网络输入,通过相对位置、尺寸和重叠特征编码两个边界框之间的空间配置。
- 使用区域建议网络(RPNs)生成人和物体建议框,然后将它们组合为人-物建议框,以实现联合分类与回归。
- 采用共享主干网络(如 ResNet)进行特征提取,随后使用区域分类器,将交互模式作为输入以预测交互类别。
- 应用多任务损失函数,结合分类、边界框回归和交互预测,实现端到端训练模型。
- 采用晚期融合策略,通过一个分数头(S)将检测分数与交互模式特征结合,以优化预测结果。
实验结果
研究问题
- RQ1大规模、实例级别的基准是否能提升人-物交互检测的评估效果与研究进展?
- RQ2通过学习的交互模式对人与物体之间空间关系的建模,在 HOI 检测中是否具有显著有效性?
- RQ3通过交互模式引入空间上下文,是否能带来相较于忽略空间配置的基线方法的显著性能提升?
- RQ4不同设计选择(如特征融合与建议框生成)如何影响 HOI 任务中的最终检测准确率?
主要发现
- 采用交互模式的 HO-RCNN(HO+IP1 (conv)+S)在已知物体设置下达到 10.41% 的 mAP,在默认设置下达到 7.81%,显著优于基线方法。
- Fast-RCNN(union)基线方法(对人和物体均使用单一注意力窗口)表现较差(默认设置下 mAP 为 1.75%),表明全局上下文不足以区分交互行为。
- Fast-RCNN(score)基线方法(仅依赖检测分数)在默认设置下达到 2.85% 的 mAP,表明仅靠目标检测置信度不足以实现交互识别。
- 该模型在每类 50 个检测结果下,人-物建议框的平均召回率达到 57.17%,但由于建议框数量呈二次增长,仍为瓶颈,表明建议框生成仍有优化空间。
- 错误分析显示,低性能类别主要受假阴性影响,表明提升建议框召回率可进一步提高 mAP。
- 定性结果表明,HO-RCNN 能够正确检测复杂交互,如“骑自行车”和“切苹果”,而误报主要源于交互类别预测错误或边界框不准确。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。